KVzip: Compressão de Cache KV Independente de Consulta com Reconstrução de Contexto
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
May 29, 2025
Autores: Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song
cs.AI
Resumo
Modelos de linguagem grandes (LLMs) baseados em Transformers armazenam contexto como pares chave-valor (KV) durante a inferência. À medida que o comprimento do contexto aumenta, os tamanhos do cache KV se expandem, resultando em sobrecarga significativa de memória e aumento da latência de atenção. Este artigo apresenta o KVzip, um método de evicção de cache KV agnóstico a consultas que permite a reutilização eficaz de caches KV comprimidos em diversas consultas. O KVzip quantifica a importância de um par KV usando o LLM subjacente para reconstruir contextos originais a partir de pares KV armazenados em cache, subsequentemente removendo pares com menor importância. Avaliações empíricas extensas demonstram que o KVzip reduz o tamanho do cache KV em 3-4 vezes e a latência de decodificação do FlashAttention em aproximadamente 2 vezes, com perda de desempenho insignificante em tarefas de resposta a perguntas, recuperação, raciocínio e compreensão de código. As avaliações incluem vários modelos, como LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, com comprimentos de contexto atingindo até 170 mil tokens. O KVzip supera significativamente os métodos existentes de evicção KV cientes de consultas, que sofrem degradação de desempenho mesmo com uma taxa de orçamento de cache de 90% em cenários de múltiplas consultas.
English
Transformer-based large language models (LLMs) cache context as key-value
(KV) pairs during inference. As context length grows, KV cache sizes expand,
leading to substantial memory overhead and increased attention latency. This
paper introduces KVzip, a query-agnostic KV cache eviction method enabling
effective reuse of compressed KV caches across diverse queries. KVzip
quantifies the importance of a KV pair using the underlying LLM to reconstruct
original contexts from cached KV pairs, subsequently evicting pairs with lower
importance. Extensive empirical evaluations demonstrate that KVzip reduces KV
cache size by 3-4times and FlashAttention decoding latency by approximately
2times, with negligible performance loss in question-answering, retrieval,
reasoning, and code comprehension tasks. Evaluations include various models
such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching
up to 170K tokens. KVzip significantly outperforms existing query-aware KV
eviction methods, which suffer from performance degradation even at a 90% cache
budget ratio under multi-query scenarios.