Fast KVzip: Efficiënte en Nauwkeurige LLM-inferentie met Gekeurde KV-verwijdering
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
Auteurs: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
Samenvatting
Efficiënt beheer van de key-value (KV) cache is cruciaal voor de praktische implementatie van large language models (LLM's), maar bestaande compressietechnieken gaan vaak gepaard met een afweging tussen prestatieverlies en rekenkosten. Wij stellen een nieuwe, op gating gebaseerde KV-cache-evictiemethode voor voor LLM's met bevroren gewichten, die hoge compressieverhoudingen bereikt met verwaarloosbare rekenkosten. Onze aanpak introduceert lichtgewicht sink-attention-gatingmodules om kritieke KV-paren te identificeren en te behouden, en integreert naadloos in zowel de prefill- als decoderingsfasen. Het voorgestelde gate-trainingsalgoritme steunt op forward passes van een LLM, waardoor dure backpropagatie vermeden wordt, terwijl het sterke taakgeneralisatie bereikt via een taakonafhankelijk reconstructiedoel. Uitgebreide experimenten met de Qwen2.5-1B, Qwen2.5-3B en Gemma2-9B modelfamilies tonen aan dat onze methode een bijna verliesvrije prestatie handhaaft terwijl tot 70% van de KV-cache wordt verwijderd. De resultaten zijn consistent over een breed scala aan taken, waaronder begrip van lange contexten, codebegrip en wiskundig redeneren, wat de algemene toepasbaarheid van onze aanpak aantoont.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.