KVServe: Compressão de Cache KV Orientada ao Serviço para Serviço de LLM Desagregado com Eficiência de Comunicação

Resumo

LLMs são amplamente adotados em produção, levando os sistemas de inferência aos seus limites. O serviço desagregado de LLMs (por exemplo, separação PD e desagregação do estado KV) melhora a escalabilidade e a eficiência de custos, mas também transforma o KV em uma carga explícita que atravessa limites de rede e armazenamento, tornando-se um gargalo dominante de ponta a ponta. As técnicas de compressão de KV existentes são tipicamente configurações estáticas de tempo de execução, apesar de o contexto do serviço de produção variar ao longo do tempo na combinação de cargas de trabalho, largura de banda e orçamentos de SLO/qualidade. Como resultado, uma escolha fixa pode ser subótima ou até mesmo aumentar a latência. Apresentamos o KVServe, o primeiro framework de compressão de comunicação KV adaptável e ciente do serviço para serviço desagregado de LLMs: o KVServe (1) unifica a compressão de KV em um espaço de estratégia modular com novos componentes e recomposição entre métodos; (2) introduz um Mecanismo de Perfilagem Bayesiana que busca eficientemente esse espaço e destila um conjunto de candidatos Pareto 3D, reduzindo em 50 vezes a sobrecarga de busca offline; e (3) implanta um Controlador Online Ciente do Serviço que combina um modelo analítico de latência com um bandido leve para selecionar perfis sob restrições e corrigir a incompatibilidade entre offline e online. Integrado ao vLLM e avaliado em conjuntos de dados, modelos, GPUs e redes, o KVServe alcança até 9,13 vezes de aceleração no JCT em serviço separado por PD e até 32,8 vezes de redução no TTFT em serviço desagregado de KV.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.