Tangram: Het ontsluiten van niet-uniforme KV-cachecompressie voor efficiënte multi-turn LLM-service

Samenvatting

Het bedienen van meerstaps-LLM's accumuleert gespreksgeschiedenis waarvan de Key-Value (KV) cache bij elke beurt en elke gebruiker groeit, waardoor deze snel de modelgewichten overtreft en geheugen—niet rekenkracht—de bindende beperking voor doorvoer wordt. Niet-uniforme KV-compressie, die heterogene budgetten toewijst over aandachtskoppen, behoudt de nauwkeurigheid veel beter dan uniforme schema's, maar blijft onpraktisch: moderne bedieningsstacks nemen identieke KV-lengtes over koppen aan, waardoor heterogeniteit vrijgekomen geheugen opsluit als paginascattering, tot 25% van de prefill-tijd besteedt aan het terugwinnen van verspreide pagina's, en GPU-workloads scheef trekt die de decode-latentie met tot 1,7 keer verhogen of 15–20% van elke decodestap verbranden aan herplanning. Wij observeren dat deze heterogeniteit niet tijdens runtime ontdekt hoeft te worden: de retentie per kop volgt een structurele regelmaat op twee niveaus—een invoerinvariante kopranglijst met nauw begrensde verhoudingen per kop—die offline kan worden gekalibreerd met slechts 50 monsters. Voortbouwend op dit inzicht presenteren we Tangram, een bedieningsframework dat statisch oplost wat eerdere systemen dynamisch afhandelen: Budget Reservation stelt de postcompressie-voetafdruk van elke kop vast op het moment van planning, waardoor paginaterugwinning wordt geëlimineerd; Ragged Paging clustert koppen met vergelijkbare budgetten in onafhankelijke paginatabellen, waardoor fragmentatie wordt omgezet in bruikbaar geheugen; en Ahead-of-Time Load Balancing berekent vooraf gebalanceerde GPU-partities zonder runtime-planning. Geïmplementeerd op vLLM fungeert Tangram als een plug-in-onderlaag voor bestaande niet-uniforme compressiemethoden, met behoud van hun nauwkeurigheid terwijl de end-to-end doorvoer tot 2,6 keer wordt verbeterd ten opzichte van de volledige KV-basislijn. Onze implementatie is openbaar beschikbaar op https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.