Tangram: Desbloqueando a Compressão Não Uniforme de Cache KV para Serviço Eficiente de LLM em Múltiplas Voltas

Resumo

O serviço de LLM multi-turno acumula um histórico de diálogo cujo cache de Key-Value (KV) cresce a cada interação e a cada usuário, rapidamente superando os próprios pesos do modelo e tornando a memória — e não a computação — a restrição limitante da taxa de transferência. A compressão não uniforme de KV, que aloca orçamentos heterogêneos entre as cabeças de atenção, preserva a precisão de forma muito superior aos esquemas uniformes, mas continua impraticável: as pilhas de serviço modernas assumem comprimentos de KV idênticos entre as cabeças, de modo que a heterogeneidade aprisiona a memória liberada como fragmentação de páginas, gasta até 25% do tempo de preenchimento recuperando páginas dispersas e distorce as cargas de trabalho da GPU, o que infla a latência de decodificação em até 1,7 vezes ou consome 15–20% de cada etapa de decodificação com replanejamento. Observamos que essa heterogeneidade não precisa ser descoberta em tempo de execução: a retenção por cabeça segue uma regularidade estrutural de dois níveis — um ranqueamento de cabeças invariante à entrada com proporções por cabeça estritamente delimitadas — que pode ser calibrado offline a partir de apenas 50 amostras. Com base nessa percepção, apresentamos o Tangram, um framework de serviço que resolve estaticamente o que os sistemas anteriores tratavam dinamicamente: a Reserva de Orçamento fixa a pegada pós-compressão de cada cabeça no momento da escalonamento, eliminando a recuperação de páginas; a Paginação Irregular agrupa cabeças com orçamentos semelhantes em tabelas de páginas independentes, transformando a fragmentação em memória recuperável; e o Balanceamento de Carga Antecipado pré-computa partições de GPU balanceadas sem nenhum planejamento em tempo de execução. Implementado sobre o vLLM, o Tangram serve como substrato plug-and-play para métodos existentes de compressão não uniforme, igualando sua precisão e melhorando a taxa de transferência ponta a ponta em até 2,6 vezes em relação à linha de base de KV completo. Nossa implementação está disponível publicamente em https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.