Tangram: Desbloqueando la Compresión de Caché KV No Uniforme para un Servicio Eficiente de LLM en Múltiples Turnos

Resumen

El servicio de LLM de múltiples turnos acumula un historial de diálogo cuya caché Clave-Valor (KV) crece con cada turno y cada usuario, superando rápidamente a los propios pesos del modelo y convirtiendo la memoria —no el cómputo— en la restricción vinculante para el rendimiento. La compresión KV no uniforme, que asigna presupuestos heterogéneos entre los cabezales de atención, preserva la precisión mucho mejor que los esquemas uniformes, pero sigue siendo poco práctica: las pilas de servicio modernas asumen longitudes de KV idénticas entre cabezales, por lo que la heterogeneidad atrapa la memoria liberada como fragmentación de páginas, consume hasta el 25 % del tiempo de prellenado recuperando páginas dispersas y desequilibra las cargas de trabajo de la GPU, lo que infla la latencia de decodificación hasta 1,7 veces o quema entre el 15 % y el 20 % de cada paso de decodificación en replanificación. Observamos que esta heterogeneidad no necesita ser descubierta en tiempo de ejecución: la retención por cabezal sigue una regularidad estructural de dos niveles —una clasificación de cabezales invariante a la entrada con ratios por cabezal acotados— que se puede calibrar fuera de línea a partir de tan solo 50 muestras. Basándonos en esta idea, presentamos Tangram, un marco de servicio que resuelve estáticamente lo que los sistemas anteriores manejan dinámicamente: la Reserva de Presupuesto fija la huella posterior a la compresión de cada cabezal en el momento de la planificación, eliminando la recuperación de páginas; la Paginación Irregular agrupa los cabezales con presupuestos similares en tablas de páginas independientes, convirtiendo la fragmentación en memoria recuperable; y el Balanceo de Carga Anticipado precomputa particiones balanceadas de GPU con planificación en tiempo de ejecución cero. Implementado sobre vLLM, Tangram sirve como un sustrato de integración directa para métodos de compresión no uniforme existentes, igualando su precisión mientras mejora el rendimiento de extremo a extremo hasta 2,6 veces sobre la línea base de KV completa. Nuestra implementación está disponible públicamente en https://github.com/aiha-lab/TANGRAM.

English

Multi-turn LLM serving accumulates dialogue history whose Key-Value (KV) cache grows with every turn and every user, quickly exceeding the model weights themselves and making memory -- not compute -- the binding constraint on throughput. Non-uniform KV compression, which allocates heterogeneous budgets across attention heads, preserves accuracy far better than uniform schemes, yet remains impractical: modern serving stacks assume identical KV lengths across heads, so heterogeneity traps freed memory as page fragmentation, spends up to 25% of prefill time reclaiming scattered pages, and skews GPU workloads that inflate decode latency by up to 1.7times or burn 15--20% of each decode step on re-planning. We observe that this heterogeneity need not be discovered at runtime: head-wise retention follows a two-level structural regularity -- an input-invariant head ranking with narrowly bounded per-head ratios -- that can be calibrated offline from as few as 50 samples. Building on this insight, we present Tangram, a serving framework that statically resolves what prior systems handle dynamically: Budget Reservation fixes each head's post-compression footprint at scheduling time, eliminating page reclamation; Ragged Paging clusters similar-budget heads into independent page tables, turning fragmentation into reclaimable memory; and Ahead-of-Time Load Balancing precomputes balanced GPU partitions with zero runtime planning. Implemented on vLLM, Tangram serves as a drop-in substrate for existing non-uniform compression methods, matching their accuracy while improving end-to-end throughput by up to 2.6times over the full-KV baseline. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.