KVServe: Servicebewusste KV-Cache-Komprimierung für kommunikationseffizientes disaggregiertes LLM-Serving

Zusammenfassung

LLMs werden weitgehend in der Produktion eingesetzt und treiben Inferenzsysteme an ihre Grenzen. Das disaggregierte LLM Serving (z.B. PD-Trennung und KV-Zustandsdisaggregation) verbessert die Skalierbarkeit und Kosteneffizienz, macht KV jedoch zu einer expliziten Nutzlast, die Netz- und Speichergrenzen überschreitet, wodurch KV zu einem dominanten Ende-zu-Ende-Engpass wird. Existierende KV-Komprimierungen sind typischerweise statische Laufzeitkonfigurationen, obwohl der Produktionsdienstkontext je nach Arbeitslastmischung, Bandbreite und SLO/Qualitätsbudgets über die Zeit variiert. Infolgedessen kann eine feste Wahl suboptimal sein oder sogar die Latenz erhöhen. Wir stellen \emph{KVServe} vor, das erste servicebewusste und adaptive KV-Kommunikationskomprimierungsframework für disaggregiertes LLM Serving: KVServe (1) vereinheitlicht die KV-Komprimierung in einen modularen Strategieraum mit neuen Komponenten und methodenübergreifender Rekomposition; (2) führt eine Bayes'sche Profiling-Engine ein, die diesen Raum effizient durchsucht und einen 3D-Pareto-Kandidatensatz destilliert, wodurch der Offline-Suchaufwand um das $50\times$ reduziert wird; und (3) setzt einen servicebewussten Online-Controller ein, der ein analytisches Latenzmodell mit einem leichtgewichtigen Banditen kombiniert, um Profile unter Nebenbedingungen auszuwählen und das Offline-zu-Online-Mismatch zu korrigieren. Integriert in vLLM und evaluiert über Datensätze, Modelle, GPUs und Netzwerke hinweg, erreicht KVServe eine bis zu $9,13\times$ schnellere JCT im PD-getrennten Serving und eine bis zu $32,8\times$ geringere TTFT im KV-disaggregierten Serving.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.