KVServe: 통신 효율적 분리형 LLM 서빙을 위한 서비스 인지 KV 캐시 압축
KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving
May 13, 2026
저자: Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan
cs.AI
초록
LLM은 프로덕션 환경에서 널리 채택되어 추론 시스템의 한계를 시험하고 있습니다. 분리형 LLM 서빙(예: PD 분리 및 KV 상태 분리)은 확장성과 비용 효율성을 개선하지만, KV를 네트워크와 스토리지 경계를 넘나드는 명시적 페이로드로 변환하여 KV가 종단 간 병목의 지배적 요소가 됩니다. 기존 KV 압축은 일반적으로 정적 런타임 구성이지만, 프로덕션 서비스 컨텍스트는 워크로드 혼합, 대역폭 및 SLO/품질 예산 측면에서 시간이 지남에 따라 변동합니다. 결과적으로 고정된 선택은 차선이거나 지연 시간을 증가시킬 수 있습니다. 본 논문에서는 분리형 LLM 서빙을 위한 최초의 서비스 인지형 적응형 KV 통신 압축 프레임워크인 \emph{KVServe}를 제시합니다. KVServe는 (1) KV 압축을 새로운 구성 요소와 교차 방법 재구성을 갖춘 모듈형 전략 공간으로 통합하고, (2) 이 공간을 효율적으로 탐색하여 3D 파레토 후보 집합을 추출하는 베이지안 프로파일링 엔진을 도입하여 오프라인 탐색 오버헤드를 50배 감소시키며, (3) 분석적 지연 시간 모델과 경량 밴딧을 결합하여 제약 조건 하에서 프로파일을 선택하고 오프라인-온라인 간 불일치를 보정하는 서비스 인지형 온라인 컨트롤러를 배포합니다. vLLM에 통합되어 데이터셋, 모델, GPU 및 네트워크 전반에 걸쳐 평가된 결과, KVServe는 PD 분리 서빙에서 최대 9.13배의 JCT 속도 향상과 KV 분리 서빙에서 최대 32.8배의 TTFT 감소를 달성합니다.
English
LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.