Tangram: Erschließung der nicht-einheitlichen KV-Cache-Kompression für effizientes Multi-Turn-LLM-Serving

Zusammenfassung

Die Bereitstellung von Multi-Turn-LLMs akkumuliert Dialogverläufe, deren Key-Value (KV)-Cache mit jeder Runde und jedem Benutzer wächst und schnell die Modellgewichte selbst übersteigt, wodurch der Speicher – und nicht die Rechenleistung – zum begrenzenden Faktor für den Durchsatz wird. Nicht-uniforme KV-Kompression, die heterogene Budgets über Aufmerksamkeitsköpfe verteilt, bewahrt die Genauigkeit weitaus besser als uniforme Verfahren, bleibt jedoch unpraktikabel: Moderne Serving-Stacks gehen von identischen KV-Längen über alle Köpfe hinweg aus, sodass Heterogenität freigegebenen Speicher in Form von Seitenfragmentierung blockiert, bis zu 25 % der Prefill-Zeit für die Rückgewinnung verstreuter Seiten aufwendet und GPU-Workloads verzerrt, die die Dekodierlatenz um bis zu das 1,7-Fache erhöhen oder 15–20 % jedes Dekodierschritts für Neuplanung verbrauchen. Wir beobachten, dass diese Heterogenität nicht zur Laufzeit entdeckt werden muss: Die kopfspezifische Retention folgt einer zweistufigen strukturellen Regelmäßigkeit – einem eingabeinvarianten Kopfranking mit eng begrenzten kopfweisen Verhältnissen – das offline anhand von lediglich 50 Stichproben kalibriert werden kann. Aufbauend auf dieser Erkenntnis präsentieren wir Tangram, ein Serving-Framework, das statisch löst, was bisherige Systeme dynamisch handhaben: Budget Reservation legt den Post-Kompressions-Fußabdruck jedes Kopfes zur Planungszeit fest und eliminiert so die Seitenrückgewinnung; Ragged Paging gruppiert Köpfe mit ähnlichem Budget in unabhängige Seitentabellen und verwandelt Fragmentierung in wiedergewinnbaren Speicher; und Ahead-of-Time Load Balancing berechnet im Voraus ausgewogene GPU-Partitionen ohne Laufzeitplanung. Implementiert auf vLLM, dient Tangram als Drop-in-Substrat für bestehende nicht-uniforme Kompressionsmethoden, erreicht deren Genauigkeit und verbessert gleichzeitig den End-to-End-Durchsatz um bis zu das 2,6-Fache im Vergleich zur Full-KV-Baseline. Unsere Implementierung ist öffentlich verfügbar unter https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.