Q-Filters: Aprovechando la Geometría QK para la Compresión Eficiente de la Caché KV

Resumen

Los modelos de lenguaje autoregresivos dependen de una caché Clave-Valor (KV, por sus siglas en inglés), que evita recalcular los estados ocultos pasados durante la generación, haciéndola más rápida. A medida que crecen los tamaños de los modelos y las longitudes de contexto, la caché KV se convierte en un cuello de botella significativo en términos de memoria, lo que exige métodos de compresión que limiten su tamaño durante la generación. En este artículo, descubrimos propiedades sorprendentes de los vectores Consulta (Q) y Clave (K) que nos permiten aproximar eficientemente las puntuaciones de atención sin calcular los mapas de atención. Proponemos Q-Filters, un método de compresión de la caché KV que no requiere entrenamiento y filtra los pares Clave-Valor menos cruciales basándose en una única proyección independiente del contexto. A diferencia de muchas alternativas, Q-Filters es compatible con FlashAttention, ya que no requiere acceso directo a los pesos de atención. Los resultados experimentales en entornos de contexto largo demuestran que Q-Filters compite con métodos de compresión basados en atención, como SnapKV, en tareas de recuperación, mientras que supera consistentemente esquemas de compresión eficientes, como Streaming-LLM, en configuraciones de generación. Destacablemente, Q-Filters logra un 99% de precisión en la tarea de "aguja en un pajar" con un nivel de compresión de x32, al mismo tiempo que reduce la caída de la perplejidad en la generación de texto hasta en un 65% en comparación con Streaming-LLM.

English

Autoregressive language models rely on a Key-Value (KV) Cache, which avoids re-computing past hidden states during generation, making it faster. As model sizes and context lengths grow, the KV Cache becomes a significant memory bottleneck, which calls for compression methods that limit its size during generation. In this paper, we discover surprising properties of Query (Q) and Key (K) vectors that allow us to efficiently approximate attention scores without computing the attention maps. We propose Q-Filters, a training-free KV Cache compression method that filters out less crucial Key-Value pairs based on a single context-agnostic projection. Contrarily to many alternatives, Q-Filters is compatible with FlashAttention, as it does not require direct access to attention weights. Experimental results in long-context settings demonstrate that Q-Filters is competitive with attention-based compression methods such as SnapKV in retrieval tasks while consistently outperforming efficient compression schemes such as Streaming-LLM in generation setups. Notably, Q-Filters achieves a 99% accuracy in the needle-in-a-haystack task with a x32 compression level while reducing the generation perplexity drop by up to 65% in text generation compared to Streaming-LLM.

Q-Filters: Aprovechando la Geometría QK para la Compresión Eficiente de la Caché KV

Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression

Resumen

Support