xKV: SVD a Livelli Incrociati per la Compressione della Cache KV
xKV: Cross-Layer SVD for KV-Cache Compression
March 24, 2025
Autori: Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto estese abilitano applicazioni potenti, ma comportano un elevato consumo di memoria per memorizzare gli stati di Chiave e Valore (KV-Cache). Studi recenti hanno tentato di unire il KV-cache di più strati in rappresentazioni condivise, tuttavia questi approcci richiedono un costoso pre-addestramento o si basano su ipotesi di elevata similarità coseno per token tra gli strati, che generalmente non si verificano nella pratica. Abbiamo osservato che i vettori singolari dominanti sono notevolmente allineati tra più strati del KV-Cache. Sfruttando questa intuizione, proponiamo xKV, un semplice metodo post-addestramento che applica la Decomposizione a Valori Singolari (SVD) sul KV-cache di strati raggruppati. xKV consolida il KV-cache di più strati in un sottospazio condiviso a basso rango, riducendo significativamente le dimensioni del KV-cache. Attraverso valutazioni estensive sul benchmark RULER per contesti lunghi con LLM ampiamente utilizzati (ad esempio, Llama-3.1 e Qwen2.5), xKV raggiunge tassi di compressione fino a 6,8 volte superiori rispetto alle tecniche inter-strato più avanzate, migliorando al contempo l'accuratezza del 2,7%. Inoltre, xKV è compatibile con l'emergente Attenzione Latente Multi-Testa (MLA, ad esempio DeepSeek-Coder-V2), ottenendo un notevole tasso di compressione di 3 volte sui task di codifica senza degradazione delle prestazioni. Questi risultati evidenziano la forte capacità e versatilità di xKV nell'affrontare i colli di bottiglia di memoria per l'inferenza di LLM con contesti lunghi. Il nostro codice è disponibile pubblicamente all'indirizzo: https://github.com/abdelfattah-lab/xKV.
English
Large Language Models (LLMs) with long context windows enable powerful
applications but come at the cost of high memory consumption to store the Key
and Value states (KV-Cache). Recent studies attempted to merge KV-cache from
multiple layers into shared representations, yet these approaches either
require expensive pretraining or rely on assumptions of high per-token cosine
similarity across layers which generally does not hold in practice. We find
that the dominant singular vectors are remarkably well-aligned across multiple
layers of the KV-Cache. Exploiting this insight, we propose xKV, a simple
post-training method that applies Singular Value Decomposition (SVD) on the
KV-Cache of grouped layers. xKV consolidates the KV-Cache of multiple layers
into a shared low-rank subspace, significantly reducing KV-Cache sizes. Through
extensive evaluations on the RULER long-context benchmark with widely-used LLMs
(e.g., Llama-3.1 and Qwen2.5), xKV achieves up to 6.8x higher compression rates
than state-of-the-art inter-layer technique while improving accuracy by 2.7%.
Moreover, xKV is compatible with the emerging Multi-Head Latent Attention (MLA)
(e.g., DeepSeek-Coder-V2), yielding a notable 3x compression rates on coding
tasks without performance degradation. These results highlight xKV's strong
capability and versatility in addressing memory bottlenecks for long-context
LLM inference. Our code is publicly available at:
https://github.com/abdelfattah-lab/xKV.Summary
AI-Generated Summary