KVServe: Compresión de caché KV consciente del servicio para un servicio de LLM desagregado eficiente en comunicación

Resumen

Los LLMs se adoptan ampliamente en producción, llevando los sistemas de inferencia a sus límites. El servicio de LLM desagregado (por ejemplo, la separación de PD y la desagregación del estado KV) mejora la escalabilidad y la eficiencia de costos, pero también convierte a KV en una carga útil explícita que cruza los límites de red y almacenamiento, haciendo de KV un cuello de botella dominante de extremo a extremo. Las compresiones de KV existentes suelen ser configuraciones de tiempo de ejecución estáticas, a pesar de que el contexto del servicio de producción varía con el tiempo en la combinación de cargas de trabajo, el ancho de banda y los presupuestos de SLO/calidad. Como resultado, una elección fija puede ser subóptima o incluso aumentar la latencia. Presentamos \emph{KVServe}, el primer marco de compresión de comunicación KV adaptativa y consciente del servicio para servicio de LLM desagregado: KVServe (1) unifica la compresión KV en un espacio de estrategias modulares con nuevos componentes y recomposición entre métodos; (2) introduce un Motor de Perfilado Bayesiano que busca eficientemente este espacio y destila un conjunto de candidatos Pareto 3D, reduciendo $50\times$ la sobrecarga de búsqueda fuera de línea; y (3) implementa un Controlador en Línea Consciente del Servicio que combina un modelo de latencia analítico con un bandido ligero para seleccionar perfiles bajo restricciones y corregir el desajuste entre fuera de línea y en línea. Integrado en vLLM y evaluado en conjuntos de datos, modelos, GPUs y redes, KVServe logra hasta $9.13\times$ de aceleración en JCT en servicio separado por PD y hasta $32.8\times$ de reducción en TTFT en servicio desagregado por KV.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.