KVzip: Compresión de Caché KV Independiente de Consultas con Reconstrucción de Contexto

Resumen

Los grandes modelos de lenguaje (LLMs) basados en Transformers almacenan el contexto como pares clave-valor (KV) durante la inferencia. A medida que la longitud del contexto aumenta, los tamaños de la caché KV se expanden, lo que genera un sobrecosto significativo de memoria y una mayor latencia en la atención. Este artículo presenta KVzip, un método de expulsión de caché KV independiente de la consulta que permite la reutilización efectiva de cachés KV comprimidas en diversas consultas. KVzip cuantifica la importancia de un par KV utilizando el LLM subyacente para reconstruir contextos originales a partir de pares KV almacenados, eliminando posteriormente los pares con menor importancia. Evaluaciones empíricas exhaustivas demuestran que KVzip reduce el tamaño de la caché KV entre 3 y 4 veces y la latencia de decodificación de FlashAttention aproximadamente 2 veces, con una pérdida de rendimiento insignificante en tareas de respuesta a preguntas, recuperación, razonamiento y comprensión de código. Las evaluaciones incluyen varios modelos como LLaMA3.1-8B, Qwen2.5-14B y Gemma3-12B, con longitudes de contexto que alcanzan hasta 170K tokens. KVzip supera significativamente a los métodos de expulsión de KV dependientes de la consulta existentes, que sufren degradación de rendimiento incluso con un 90% de presupuesto de caché en escenarios de múltiples consultas.

English

Transformer-based large language models (LLMs) cache context as key-value (KV) pairs during inference. As context length grows, KV cache sizes expand, leading to substantial memory overhead and increased attention latency. This paper introduces KVzip, a query-agnostic KV cache eviction method enabling effective reuse of compressed KV caches across diverse queries. KVzip quantifies the importance of a KV pair using the underlying LLM to reconstruct original contexts from cached KV pairs, subsequently evicting pairs with lower importance. Extensive empirical evaluations demonstrate that KVzip reduces KV cache size by 3-4times and FlashAttention decoding latency by approximately 2times, with negligible performance loss in question-answering, retrieval, reasoning, and code comprehension tasks. Evaluations include various models such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching up to 170K tokens. KVzip significantly outperforms existing query-aware KV eviction methods, which suffer from performance degradation even at a 90% cache budget ratio under multi-query scenarios.

KVzip: Compresión de Caché KV Independiente de Consultas con Reconstrucción de Contexto

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

Resumen

Support