KVServe: Servicebewuste KV-cachecompressie voor communicatie-efficiënte ontkoppelde LLM-dienstverlening

Samenvatting

LLM's worden breed toegepast in productieomgevingen, wat inferentiesystemen tot hun grenzen drijft. Gedesaggregeerde LLM-dienstverlening (bv. PD-scheiding en KV-toestandsdesaggregatie) verbetert schaalbaarheid en kostenefficiëntie, maar maakt KV ook tot een expliciete payload die netwerk- en opslaggrenzen overschrijdt, waardoor KV een dominante end-to-end bottleneck wordt. Bestaande KV-compressie is doorgaans een statische runtimeconfiguratie, terwijl de productiedienstcontext in de loop van de tijd varieert wat betreft werklastmix, bandbreedte en SLO-/kwaliteitsbudgetten. Hierdoor kan een vaste keuze suboptimaal zijn of zelfs de latentie verhogen. Wij presenteren KVServe, het eerste servicebewuste en adaptieve raamwerk voor KV-communicatiecompressie voor gedesaggregeerde LLM-dienstverlening: KVServe (1) verenigt KV-compressie in een modulaire strategieruimte met nieuwe componenten en methode-overkoepelende hercompositie; (2) introduceert een Bayesiaanse Profileringsengine die deze ruimte efficiënt doorzoekt en een 3D-Pareto-kandidaatverzameling distilleert, waardoor de offline-zoekoverhead met 50 keer wordt verminderd; en (3) implementeert een Servicebewuste Online Controller die een analytisch latentiemodel combineert met een lichtgewicht bandit-algoritme om profielen onder beperkingen te selecteren en offline-naar-online mismatch te corrigeren. Geïntegreerd in vLLM en geëvalueerd over datasets, modellen, GPU's en netwerken heen, behaalt KVServe tot 9,13 keer JCT-versnelling in PD-gescheiden dienstverlening en tot 32,8 keer TTFT-reductie in KV-gedesaggregeerde dienstverlening.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.