KVzip: Compresión de Caché KV Independiente de Consultas con Reconstrucción de Contexto
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
May 29, 2025
Autores: Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) basados en Transformers almacenan el contexto como pares clave-valor (KV) durante la inferencia. A medida que la longitud del contexto aumenta, los tamaños de la caché KV se expanden, lo que genera un sobrecosto significativo de memoria y una mayor latencia en la atención. Este artículo presenta KVzip, un método de expulsión de caché KV independiente de la consulta que permite la reutilización efectiva de cachés KV comprimidas en diversas consultas. KVzip cuantifica la importancia de un par KV utilizando el LLM subyacente para reconstruir contextos originales a partir de pares KV almacenados, eliminando posteriormente los pares con menor importancia. Evaluaciones empíricas exhaustivas demuestran que KVzip reduce el tamaño de la caché KV entre 3 y 4 veces y la latencia de decodificación de FlashAttention aproximadamente 2 veces, con una pérdida de rendimiento insignificante en tareas de respuesta a preguntas, recuperación, razonamiento y comprensión de código. Las evaluaciones incluyen varios modelos como LLaMA3.1-8B, Qwen2.5-14B y Gemma3-12B, con longitudes de contexto que alcanzan hasta 170K tokens. KVzip supera significativamente a los métodos de expulsión de KV dependientes de la consulta existentes, que sufren degradación de rendimiento incluso con un 90% de presupuesto de caché en escenarios de múltiples consultas.
English
Transformer-based large language models (LLMs) cache context as key-value
(KV) pairs during inference. As context length grows, KV cache sizes expand,
leading to substantial memory overhead and increased attention latency. This
paper introduces KVzip, a query-agnostic KV cache eviction method enabling
effective reuse of compressed KV caches across diverse queries. KVzip
quantifies the importance of a KV pair using the underlying LLM to reconstruct
original contexts from cached KV pairs, subsequently evicting pairs with lower
importance. Extensive empirical evaluations demonstrate that KVzip reduces KV
cache size by 3-4times and FlashAttention decoding latency by approximately
2times, with negligible performance loss in question-answering, retrieval,
reasoning, and code comprehension tasks. Evaluations include various models
such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching
up to 170K tokens. KVzip significantly outperforms existing query-aware KV
eviction methods, which suffer from performance degradation even at a 90% cache
budget ratio under multi-query scenarios.Summary
AI-Generated Summary