KVServe: 通信効率的な分離型LLMサービス提供のためのサービス認識型KVキャッシュ圧縮
KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving
May 13, 2026
著者: Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan
cs.AI
要旨
LLMは実運用で広く採用されており、推論システムをその限界まで押し上げている。分離型LLMサービス(例:PD分離やKV状態の分離)はスケーラビリティとコスト効率を向上させるが、KVをネットワークとストレージの境界を越える明示的なペイロードに変え、KVをエンドツーエンドの支配的なボトルネックにする。既存のKV圧縮は通常、静的な実行時設定であるが、実運用のサービスコンテキストはワークロード混合、帯域幅、SLO/品質予算において時間とともに変動する。その結果、固定された選択は最適以下であったり、レイテンシを増加させたりする可能性がある。本稿では、分離型LLMサービスのための初のサービス認識型かつ適応的なKV通信圧縮フレームワークである『KVServe』を提案する。KVServeは、(1) KV圧縮を、新しいコンポーネントと手法間の再構成を備えたモジュラー戦略空間に統合し、(2) この空間を効率的に探索し、3Dパレート候補セットを抽出するベイジアンプロファイリングエンジンを導入し、オフライン探索オーバーヘッドを50倍削減し、(3) 解析的レイテンシモデルと軽量バンディットを組み合わせ、制約下でプロファイルを選択し、オフラインとオンラインのミスマッチを修正するサービス認識型オンラインコントローラを展開する。vLLMに統合され、データセット、モデル、GPU、ネットワークにわたって評価された結果、KVServeはPD分離型サービスで最大9.13倍のJCT高速化、KV分離型サービスで最大32.8倍のTTFT削減を達成する。
English
LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.