Fast KVzip: Inferencia Eficiente y Precisa de LLM con Expulsión de KV Controlada
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
Autores: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
Resumen
La gestión eficiente de la caché de clave-valor (KV) es crucial para el despliegue práctico de los grandes modelos de lenguaje (LLMs), aunque las técnicas de compresión existentes a menudo implican una disyuntiva entre la degradación del rendimiento y la sobrecarga computacional. Proponemos un novedoso método de expulsión de la caché KV basado en compuertas para LLMs con pesos congelados, que logra altas tasas de compresión con un coste computacional insignificante. Nuestro enfoque introduce módulos ligeros de compuertas de atención-sumidero para identificar y retener los pares KV críticos, y se integra perfectamente tanto en la etapa de prellenado como en la de decodificación. El algoritmo de entrenamiento de compuertas propuesto se basa en pasos hacia adelante de un LLM, evitando la costosa retropropagación, mientras alcanza una fuerte generalización de tareas mediante un objetivo de reconstrucción independiente de la tarea. Experimentos exhaustivos en las familias Qwen2.5-1M, Qwen3 y Gemma3 muestran que nuestro método mantiene un rendimiento casi sin pérdidas mientras expulsa hasta el 70% de la caché KV. Los resultados son consistentes en una amplia gama de tareas, incluyendo la comprensión de contexto largo, la comprensión de código y el razonamiento matemático, lo que demuestra la generalidad de nuestro enfoque.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.