Fast KVzip: Inferência Eficiente e Precis
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
Autores: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
Resumo
A gestão eficiente da cache de pares chave-valor (KV) é crucial para a implantação prática de grandes modelos de linguagem (LLMs), mas as técnicas de compressão existentes frequentemente incorrem num compromisso entre degradação de desempenho e sobrecarga computacional. Propomos um novo método de evicção da cache KV baseado em portões para LLMs com pesos congelados, que alcança altas taxas de compressão com um custo computacional insignificante. A nossa abordagem introduz módulos leves de portões com atenção de sumidouro para identificar e reter pares KV críticos, e integra-se perfeitamente tanto na fase de pré-preenchimento como na de descodificação. O algoritmo de treino dos portões proposto baseia-se em passes diretos de um LLM, evitando a retropropagação dispendiosa, enquanto alcança uma forte generalização de tarefas através de um objetivo de reconstrução independente da tarefa. Experiências extensivas nas famílias Qwen2.5-1M, Qwen3 e Gemma3 mostram que o nosso método mantém um desempenho quase sem perdas enquanto evita até 70% da cache KV. Os resultados são consistentes numa ampla gama de tarefas, incluindo compreensão de contexto longo, compreensão de código e raciocínio matemático, demonstrando a generalidade da nossa abordagem.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.