ChatPaper.aiChatPaper

xKV : Décomposition SVD intercouches pour la compression du cache KV

xKV: Cross-Layer SVD for KV-Cache Compression

March 24, 2025
Auteurs: Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
cs.AI

Résumé

Les modèles de langage à grande échelle (LLMs) avec des fenêtres de contexte longues permettent des applications puissantes, mais au prix d'une consommation de mémoire élevée pour stocker les états de Clé et de Valeur (KV-Cache). Des études récentes ont tenté de fusionner le KV-cache de plusieurs couches en représentations partagées, mais ces approches nécessitent soit un pré-entraînement coûteux, soit reposent sur des hypothèses de similarité cosinus élevée par token entre les couches, ce qui ne se vérifie généralement pas en pratique. Nous constatons que les vecteurs singuliers dominants sont remarquablement alignés à travers plusieurs couches du KV-Cache. Exploitant cette observation, nous proposons xKV, une méthode simple post-entraînement qui applique la Décomposition en Valeurs Singulières (SVD) sur le KV-Cache de couches groupées. xKV consolide le KV-Cache de plusieurs couches en un sous-espace partagé de faible rang, réduisant significativement la taille du KV-Cache. À travers des évaluations approfondies sur le benchmark de contexte long RULER avec des LLMs largement utilisés (par exemple, Llama-3.1 et Qwen2.5), xKV atteint des taux de compression jusqu'à 6,8 fois supérieurs à la technique inter-couches de pointe tout en améliorant la précision de 2,7%. De plus, xKV est compatible avec l'attention latente multi-têtes émergente (MLA) (par exemple, DeepSeek-Coder-V2), offrant un taux de compression notable de 3x sur les tâches de codage sans dégradation de performance. Ces résultats mettent en évidence la capacité et la polyvalence de xKV à résoudre les goulots d'étranglement de mémoire pour l'inférence des LLMs à contexte long. Notre code est disponible publiquement à l'adresse : https://github.com/abdelfattah-lab/xKV.
English
Large Language Models (LLMs) with long context windows enable powerful applications but come at the cost of high memory consumption to store the Key and Value states (KV-Cache). Recent studies attempted to merge KV-cache from multiple layers into shared representations, yet these approaches either require expensive pretraining or rely on assumptions of high per-token cosine similarity across layers which generally does not hold in practice. We find that the dominant singular vectors are remarkably well-aligned across multiple layers of the KV-Cache. Exploiting this insight, we propose xKV, a simple post-training method that applies Singular Value Decomposition (SVD) on the KV-Cache of grouped layers. xKV consolidates the KV-Cache of multiple layers into a shared low-rank subspace, significantly reducing KV-Cache sizes. Through extensive evaluations on the RULER long-context benchmark with widely-used LLMs (e.g., Llama-3.1 and Qwen2.5), xKV achieves up to 6.8x higher compression rates than state-of-the-art inter-layer technique while improving accuracy by 2.7%. Moreover, xKV is compatible with the emerging Multi-Head Latent Attention (MLA) (e.g., DeepSeek-Coder-V2), yielding a notable 3x compression rates on coding tasks without performance degradation. These results highlight xKV's strong capability and versatility in addressing memory bottlenecks for long-context LLM inference. Our code is publicly available at: https://github.com/abdelfattah-lab/xKV.

Summary

AI-Generated Summary

PDF41March 26, 2025