Танграм: Раскрытие неравномерного сжатия KV-кэша для эффективного многораундового обслуживания LLM

Аннотация

Обслуживание многораундовых LLM накапливает историю диалогов, кэш ключ-значение (KV) которой растет с каждым раундом и каждым пользователем, быстро превышая размер самих весов модели и превращая память – а не вычисления – в ограничивающий фактор пропускной способности. Неравномерное сжатие KV, которое выделяет гетерогенные бюджеты для голов внимания, сохраняет точность гораздо лучше, чем равномерные схемы, но остается непрактичным: современные стеки обслуживания предполагают одинаковую длину KV для всех голов, поэтому гетерогенность приводит к фрагментации освобожденной памяти в виде страниц, тратит до 25% времени префилла на возврат разбросанных страниц и искажает рабочие нагрузки GPU, что увеличивает задержку декодирования до 1,7 раза или сжигает 15–20% каждого шага декодирования на перепланирование. Мы наблюдаем, что эту гетерогенность не нужно обнаруживать во время выполнения: удержание по головам следует двухуровневой структурной регулярности – инвариантному относительно входных данных ранжированию голов с узко ограниченными соотношениями на голову – которое может быть откалибровано офлайн на основе всего 50 образцов. Опираясь на это понимание, мы представляем Tangram – фреймворк обслуживания, который статически решает то, что предыдущие системы обрабатывали динамически: «Резервирование бюджета» (Budget Reservation) фиксирует размер каждой головы после сжатия во время планирования, устраняя необходимость возврата страниц; «Рваная страничная организация» (Ragged Paging) группирует головы с похожими бюджетами в независимые таблицы страниц, превращая фрагментацию в освобождаемую память; а «Предварительная балансировка нагрузки» (Ahead-of-Time Load Balancing) предварительно вычисляет сбалансированные разделы GPU без затрат на планирование во время выполнения. Реализованный на основе vLLM, Tangram служит готовой основой для существующих методов неравномерного сжатия, соответствуя их точности, одновременно улучшая сквозную пропускную способность до 2,6 раз по сравнению с базовым полным KV. Наша реализация общедоступна по адресу https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.