Fast KVzip: Effiziente und präzise LLM-Inferenz mit gelenkter KV-Eviction
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
papers.authors: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
papers.abstract
Effizientes Management des Key-Value (KV) Caches ist entscheidend für den praktischen Einsatz von Large Language Models (LLMs), bestehende Komprimierungstechniken führen jedoch oft zu einem Zielkonflikt zwischen Leistungseinbußen und Rechenaufwand. Wir schlagen eine neuartige, auf Gating basierende Methode zur Auslagerung aus dem KV-Cache für LLMs mit festen Gewichten vor, die hohe Komprimierungsraten mit vernachlässigbarem Rechenaufwand erreicht. Unser Ansatz führt leichtgewichtige Sink-Attention-Gating-Module ein, um kritische KV-Paare zu identifizieren und zu behalten, und lässt sich nahtlos sowohl in die Prefill- als auch in die Decoding-Phase integrieren. Der vorgeschlagene Gate-Trainingsalgorithmus basiert auf Forward-Passes eines LLMs, vermeidet somit aufwändige Backpropagation und erreicht dennoch eine starke Task-Generalisierung durch ein task-agnostisches Rekonstruktionsziel. Umfangreiche Experimente mit den Modellfamilien Qwen2.5-1M, Qwen3 und Gemma3 zeigen, dass unsere Methode bei einer Auslagerung von bis zu 70 % des KV-Caches eine nahezu verlustfreie Leistung beibehält. Die Ergebnisse sind konsistent über eine breite Palette von Aufgaben hinweg, einschließlich Langzeitkontextverständnis, Code-Verständnis und mathematischem Reasoning, was die Allgemeingültigkeit unseres Ansatzes demonstriert.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.