Fast KVzip: Эффективный и точный вывод LLM с управляемым вытеснением ключей и значений
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
January 25, 2026
Авторы: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI
Аннотация
Эффективное управление ключево-значимым (KV) кэшем имеет решающее значение для практического развертывания больших языковых моделей (LLM), однако существующие методы сжатия часто связаны с компромиссом между снижением производительности и вычислительными затратами. Мы предлагаем новый метод вытеснения KV-кэша на основе гейтинга для LLM с замороженными весами, который обеспечивает высокие коэффициенты сжатия при пренебрежимо малых вычислительных затратах. Наш подход вводит легковесные гейт-модули с механизмом sink-attention для идентификации и сохранения критически важных KV-пар и бесшовно интегрируется как на этапе предзаполнения (prefill), так и на этапе декодирования. Предложенный алгоритм обучения гейтов опирается на прямые проходы LLM, избегая дорогостоящего обратного распространения ошибки, и достигает сильной обобщающей способности на задачах за счет агендо-независимой реконструкционной цели. Масштабные эксперименты на семействах моделей Qwen2.5-1M, Qwen3 и Gemma3 показывают, что наш метод сохраняет практически безпотерьную производительность при вытеснении до 70% KV-кэша. Результаты согласованы для широкого спектра задач, включая понимание длинного контекста, понимание кода и математические рассуждения, что демонстрирует универсальность нашего подхода.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.