로컬 LLM 추론 서버

2025.01 – 2025.04 · 개인 프로젝트

PythonvLLMOllamaDocker

문제

외부 API 비용과 데이터 프라이버시 때문에 로컬에서 LLM을 안정적으로 서빙할 필요가 있었습니다.

vLLM로 추론 처리량을 높이고 Ollama로 모델 교체를 단순화한 셀프호스팅 추론 API를 Docker로 패키징했습니다.

온프레미스 환경에서 외부 의존 없이 추론을 제공하고, 모델 교체를 한 줄로 처리했습니다.