KVServe: сервисно-зависимое сжатие KV-кэша для коммуникационно-эффективного дезагрегированного обслуживания LLM

Аннотация

LLM широко применяются в производственных средах, что доводит системы логического вывода до предела их возможностей. Раздельное обслуживание LLM (например, разделение PD и разделение KV-состояний) повышает масштабируемость и экономическую эффективность, но при этом превращает KV в явную нагрузку, пересекающую границы сети и хранилища, что делает KV доминирующим сквозным узким местом. Существующие методы сжатия KV обычно являются статическими конфигурациями времени выполнения, несмотря на то, что контекст производственного обслуживания меняется со временем по составу рабочей нагрузки, пропускной способности и бюджетам SLO/качества. В результате фиксированный выбор может быть неоптимальным или даже увеличивать задержку. Мы представляем \emph{KVServe} — первую сервис-ориентированную и адаптивную платформу сжатия коммуникаций KV для раздельного обслуживания LLM: KVServe (1) унифицирует сжатие KV в модульное пространство стратегий с новыми компонентами и межметодной рекомпозицией; (2) внедряет байесовский механизм профилирования, который эффективно исследует это пространство и выделяет трехмерное паретовское множество кандидатов, снижая накладные расходы автономного поиска в 50 раз; и (3) развертывает сервис-ориентированный онлайн-контроллер, который сочетает аналитическую модель задержки с легковесным бандитом для выбора профилей с учетом ограничений и коррекции несоответствия между автономным и онлайн-режимами. Интегрированный в vLLM и оцененный на различных наборах данных, моделях, GPU и сетях, KVServe достигает ускорения JCT в 9,13 раза при обслуживании с разделением PD и сокращения TTFT в 32,8 раза при обслуживании с разделением KV.

English

LLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV into an explicit payload crossing network and storage boundaries, making KV a dominant end-to-end bottleneck. Existing KV compression are typically static runtime configurations, despite production service context varies over time in workload mix, bandwidth, and SLO/quality budgets. As a result, a fixed choice can be suboptimal or even increase latency. We present KVServe, the first service-aware and adaptive KV communication compression framework for disaggregated LLM serving: KVServe (1) unifies KV compression into a modular strategy space with new components and cross-method recomposition; (2) introduces Bayesian Profiling Engine that efficiently searches this space and distills a 3D Pareto candidate set, reducing 50times offline search overhead; and (3) deploys a Service-Aware Online Controller that combines an analytical latency model with a lightweight bandit to select profiles under constraints and correct offline-to-online mismatch. Integrated into vLLM and evaluated across datasets, models, GPUs and networks, KVServe achieves up to 9.13times JCT speedup in PD-separated serving and up to 32.8times TTFT reduction in KV-disaggregated serving.