잠깐 LLM 서빙 엔진 이란 것을 알기전 LLM 모델이 무엇인지 부터 잠깐 집고 넘어가자.
LLM 모델은 수십억 개의 숫자(파라미터)로 이루어진 거대한 수학함수하고 한다. 쉽게 생각하면 "패턴을 알고 있는 거대한 계산기"라고 생각하면 된다. 해서 실제 답변을 만드는 일을 한다. 모델에 대한 내용은 다음 글에서 자세히 정리해보도록 하고 지금은 LLM 서빙 엔진 을 먼저 무엇인지 알아보자.
(사실 모델이란 말은 많이 들어봐서 뭔가 알듯 한데 LLM 서빙 엔진은 처음 들어봤다.;;)
LLM을 동작할때 단순히 모델(Gemma / Qwen) 과 같은 학습하고 저장하는 것을 넘어 실제 사용자 응답을 처리하는 서빙(Serving) 단계가 핵심이 되었다.
서빙 엔진은 학습된 모델을 생산환경에서 빠르고 안정적으로 사용 가능하게 하는 시스템으로 볼 수 있습니다.
예를 들면 학습이 끝난 모델이 실제 사용자 질문에 답하도록 제공될 때 모델을 로딩하고 입/출력을 처리하고 API 를 제공하고 다중 요청을 처리하고 모니터링 등이 서빙엔진이 하는 일이다.
AI 로 답변이 나오는 과정은 다음과 같다.

여기서 고민해야 할 부분은 모델을 실행하는 "엔진" 이라도 안정성 중심의 엔진인지 혹은 성능 중심의 터보 엔진인지 선택할수 있다.
그래서 그 중 TGI와 vLLM 깊이 있게 다뤄보려 한다.
| 항목 | TGI | vLLM |
| 개발사 | Hugging Face | vLLM Team |
| 추천 대상 | 안정성 중심 | 성능 중심 |
| 속도 | 느림 (기준) | 빠름 |
| 이미지 처리 | 불가 | ⭐가능 ⭐ |
| 메모리 효율 | 보통 | 우수 |
| 설정 난이도 | 간단 | 복잡 |
| 지원 모델 | 대부분 | 특정 모델 |
| 커뮤니티 | 큼 (Hugging Face) | 성장 중 |
TGI (Text Generation Inference)
TGI는 Hugging Face에서 만든 공식 LLM 추론 서버 이다.
이는 빠르고 안전하고 설정이 간단한 대신 속도가 떨어지는 단점이 있다.
TGI의 아키텍처
┌─────────────────────────────────────┐
│ 사용자 요청 │
└──────────────┬──────────────────────┘
│
┌──────▼──────┐
│ TGI API │
│ (HTTP) │
└──────┬──────┘
│
┌──────▼─────────────┐
│ Token Generation │
│ (표준 방식) │
└──────┬─────────────┘
│
┌──────▼──────────────┐
│ PyTorch Backend │
│ (기본 최적화) │
└──────┬──────────────┘
│
┌──────▼──────┐
│ GPU │
│ 메모리 │
└─────────────┘
vLLM (Very Large Language Model)
vLLM은 UC Berkeley에서 만든 고성능 LLM 추론 엔진이다.
빠르고 메모리 효율적이고 높은 처리량을 가진 대신 설정이 복잡하고 학습 곡선이 높다고 한다.
vLLM 의 아키텍처
┌─────────────────────────────────────┐
│ 사용자 요청 │
└──────────────┬──────────────────────┘
│
┌──────▼────────────┐
│ vLLM API │
│ (비동기) │
└──────┬────────────┘
│
┌──────▼──────────────────────┐
│ Request Scheduling │
│ (최적 배치 구성) │
└──────┬──────────────────────┘
│
┌──────▼──────────────────────┐
│ PagedAttention KV Cache │
│ (메모리 효율화) │
└──────┬──────────────────────┘
│
┌──────▼──────────────────────┐
│ CUDA 최적화 커널 │
│ (GPU 최대 활용) │
└──────┬──────────────────────┘
│
┌──────▼──────┐
│ GPU │
│ 메모리 │
└─────────────┘
성능을 비교하였을때
응답 시간은 3배 정도 빠르고 동시처리 요청에서도 4배 빠르다고 한다.
