xKV: Descomposición SVD entre capas para la compresión de la caché KV

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) con ventanas de contexto largas permiten aplicaciones potentes, pero conllevan un alto consumo de memoria para almacenar los estados de Clave y Valor (KV-Cache). Estudios recientes han intentado fusionar el KV-cache de múltiples capas en representaciones compartidas, pero estos enfoques requieren un costoso preentrenamiento o se basan en suposiciones de alta similitud coseno por token entre capas, lo que generalmente no se cumple en la práctica. Descubrimos que los vectores singulares dominantes están notablemente alineados en múltiples capas del KV-Cache. Aprovechando esta idea, proponemos xKV, un método simple posentrenamiento que aplica la Descomposición en Valores Singulares (SVD) al KV-Cache de capas agrupadas. xKV consolida el KV-Cache de múltiples capas en un subespacio compartido de bajo rango, reduciendo significativamente el tamaño del KV-Cache. A través de evaluaciones exhaustivas en el benchmark de contexto largo RULER con LLMs ampliamente utilizados (por ejemplo, Llama-3.1 y Qwen2.5), xKV logra tasas de compresión hasta 6.8 veces superiores a la técnica intercapas más avanzada, mejorando la precisión en un 2.7%. Además, xKV es compatible con la emergente Atención Latente Multi-Cabeza (MLA) (por ejemplo, DeepSeek-Coder-V2), obteniendo una notable tasa de compresión de 3x en tareas de codificación sin degradación del rendimiento. Estos resultados destacan la fuerte capacidad y versatilidad de xKV para abordar los cuellos de botella de memoria en la inferencia de LLMs de contexto largo. Nuestro código está disponible públicamente en: https://github.com/abdelfattah-lab/xKV.

English

Large Language Models (LLMs) with long context windows enable powerful applications but come at the cost of high memory consumption to store the Key and Value states (KV-Cache). Recent studies attempted to merge KV-cache from multiple layers into shared representations, yet these approaches either require expensive pretraining or rely on assumptions of high per-token cosine similarity across layers which generally does not hold in practice. We find that the dominant singular vectors are remarkably well-aligned across multiple layers of the KV-Cache. Exploiting this insight, we propose xKV, a simple post-training method that applies Singular Value Decomposition (SVD) on the KV-Cache of grouped layers. xKV consolidates the KV-Cache of multiple layers into a shared low-rank subspace, significantly reducing KV-Cache sizes. Through extensive evaluations on the RULER long-context benchmark with widely-used LLMs (e.g., Llama-3.1 and Qwen2.5), xKV achieves up to 6.8x higher compression rates than state-of-the-art inter-layer technique while improving accuracy by 2.7%. Moreover, xKV is compatible with the emerging Multi-Head Latent Attention (MLA) (e.g., DeepSeek-Coder-V2), yielding a notable 3x compression rates on coding tasks without performance degradation. These results highlight xKV's strong capability and versatility in addressing memory bottlenecks for long-context LLM inference. Our code is publicly available at: https://github.com/abdelfattah-lab/xKV.

xKV: Descomposición SVD entre capas para la compresión de la caché KV

xKV: Cross-Layer SVD for KV-Cache Compression

Resumen

Support