Tangram : Débloquer la compression non uniforme du cache KV pour un service efficace de LLM multi-tours

Résumé

Le service de LLM multi-tours accumule un historique de dialogue dont le cache Key-Value (KV) croît à chaque tour et pour chaque utilisateur, dépassant rapidement la taille des poids du modèle eux-mêmes et faisant de la mémoire — et non du calcul — le facteur limitant du débit. La compression KV non uniforme, qui alloue des budgets hétérogènes entre les têtes d’attention, préserve la précision bien mieux que les schémas uniformes, mais reste irréalisable : les piles de service modernes supposent des longueurs de KV identiques entre les têtes, de sorte que l’hétérogénéité piège la mémoire libérée sous forme de fragmentation des pages, consomme jusqu’à 25 % du temps de préremplissage à récupérer des pages dispersées, et déséquilibre les charges de travail GPU ce qui gonfle la latence de décodage jusqu’à 1,7 fois ou brûle 15 à 20 % de chaque étape de décodage en re-planification. Nous observons que cette hétérogénéité n’a pas besoin d’être découverte à l’exécution : la rétention par tête suit une régularité structurelle à deux niveaux — un classement des têtes invariant par entrée avec des ratios par tête étroitement bornés — qui peut être calibré hors ligne à partir d’aussi peu que 50 échantillons. Sur la base de cette observation, nous présentons Tangram, un framework de service qui résout de manière statique ce que les systèmes antérieurs traitent de manière dynamique : la Réservation de Budget fixe l’empreinte après compression de chaque tête au moment de l’ordonnancement, éliminant la récupération de pages ; la Pagination Irrégulière regroupe les têtes aux budgets similaires dans des tables de pages indépendantes, transformant la fragmentation en mémoire récupérable ; et l’Équilibrage de Charge Anticipé précalcule des partitions GPU équilibrées sans aucune planification à l’exécution. Implémenté sur vLLM, Tangram sert de substrat prêt à l’emploi pour les méthodes de compression non uniforme existantes, égalant leur précision tout en améliorant le débit de bout en bout jusqu’à 2,6 fois par rapport à la ligne de base avec KV complet. Notre implémentation est publiquement disponible à l’adresse https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.