KVServe : Compression du cache KV consciente du service pour un service LLM désagrégé efficace en communication

Résumé

Les LLM sont largement adoptés en production, poussant les systèmes d'inférence à leurs limites. Le service de LLM désagrégé (par exemple, la séparation PD et la désagrégation des états KV) améliore la scalabilité et l'efficacité des coûts, mais transforme également les KV en une charge utile explicite traversant les limites du réseau et du stockage, faisant des KV un goulot d'étranglement dominant de bout en bout. Les méthodes existantes de compression des KV sont généralement des configurations statiques à l'exécution, malgré le fait que le contexte de service en production varie dans le temps en termes de mix de charges de travail, de bande passante et de budgets de SLO/qualité. En conséquence, un choix fixe peut être sous-optimal, voire augmenter la latence. Nous présentons *KVServe*, le premier framework de compression de communication KV adaptative et sensible au service pour le service de LLM désagrégé : KVServe (1) unifie la compression des KV en un espace de stratégies modulaires avec de nouveaux composants et une recomposition inter-méthodes ; (2) introduit un moteur de profilage bayésien qui explore efficacement cet espace et distille un ensemble candidat de Pareto 3D, réduisant la surcharge de recherche hors ligne de 50× ; et (3) déploie un contrôleur en ligne sensible au service qui combine un modèle analytique de latence avec un bandit léger pour sélectionner les profils sous contraintes et corriger les écarts hors ligne/en ligne. Intégré à vLLM et évalué sur des ensembles de données, modèles, GPU et réseaux, KVServe atteint jusqu'à 9,13× d'accélération du JCT dans le service à séparation PD et jusqu'à 32,8× de réduction du TTFT dans le service à désagrégation KV.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.