高速KVzip: ゲート付きKV退避による効率的かつ正確なLLM推論
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
著者: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
要旨
効率的なキー・バリュー(KV)キャッシュ管理は大規模言語モデル(LLM)の実用的な展開において重要であるが、既存の圧縮技術では性能低下と計算オーバーヘッドのトレードオフが生じることが多い。本研究では、重み固定のLLM向けに、高い圧縮率と無視可能な計算コストを両立する新しいゲート方式のKVキャッシュ退避手法を提案する。本手法は、軽量なシンク・アテンションゲートモジュールを導入して重要なKVペアを識別・保持し、プリフィル段階とデコード段階の両方にシームレスに統合する。提案するゲート学習アルゴリズムはLLMの順伝播のみに依存し、高コストな誤差逆伝播を回避しながら、タスク非依存の再構成目的関数によって強力なタスク一般化を実現する。Qwen2.5-1M、Qwen3、Gemma3ファミリを用いた大規模な実験により、本手法がKVキャッシュの最大70%を退避させながらもほぼロスレスの性能を維持することを示す。長文理解、コード理解、数学的推論など多様なタスクにおいて一貫した結果が得られ、本アプローチの汎用性が実証された。
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.