KVzip: Сжатие кэша ключ-значение, не зависящее от запросов, с восстановлением контекста
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
May 29, 2025
Авторы: Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song
cs.AI
Аннотация
Крупные языковые модели (LLM), основанные на архитектуре Transformer, кэшируют контекст в виде пар ключ-значение (KV) во время вывода. По мере увеличения длины контекста размеры KV-кэша растут, что приводит к значительным накладным расходам по памяти и увеличению задержки внимания. В данной статье представлен метод KVzip, не зависящий от запросов способ вытеснения KV-кэша, который позволяет эффективно повторно использовать сжатые KV-кэши для различных запросов. KVzip оценивает важность пары KV с использованием базовой LLM для восстановления исходного контекста из кэшированных пар KV, после чего вытесняет пары с меньшей важностью. Обширные эмпирические оценки показывают, что KVzip сокращает размер KV-кэша в 3–4 раза и задержку декодирования FlashAttention примерно в 2 раза при незначительной потере производительности в задачах ответов на вопросы, поиска, рассуждений и понимания кода. Оценки включают различные модели, такие как LLaMA3.1-8B, Qwen2.5-14B и Gemma3-12B, с длиной контекста до 170 тысяч токенов. KVzip значительно превосходит существующие методы вытеснения KV, зависящие от запросов, которые демонстрируют снижение производительности даже при 90% бюджете кэша в сценариях с множественными запросами.
English
Transformer-based large language models (LLMs) cache context as key-value
(KV) pairs during inference. As context length grows, KV cache sizes expand,
leading to substantial memory overhead and increased attention latency. This
paper introduces KVzip, a query-agnostic KV cache eviction method enabling
effective reuse of compressed KV caches across diverse queries. KVzip
quantifies the importance of a KV pair using the underlying LLM to reconstruct
original contexts from cached KV pairs, subsequently evicting pairs with lower
importance. Extensive empirical evaluations demonstrate that KVzip reduces KV
cache size by 3-4times and FlashAttention decoding latency by approximately
2times, with negligible performance loss in question-answering, retrieval,
reasoning, and code comprehension tasks. Evaluations include various models
such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching
up to 170K tokens. KVzip significantly outperforms existing query-aware KV
eviction methods, which suffer from performance degradation even at a 90% cache
budget ratio under multi-query scenarios.Summary
AI-Generated Summary