KV-CoRE: Valutazione della Compressibilità a Basso Rango Dipendente dai Dati delle KV-Cache nei Modelli Linguistici di Grande Dimensione
KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs
February 5, 2026
Autori: Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang, Changyou Chen, Yin Chen, Qizhen Weng, Yirui Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni si basano sulle cache KV per evitare calcoli ridondanti durante la decodifica autoregressiva, ma con l'aumentare della lunghezza del contesto, la lettura e scrittura della cache può saturare rapidamente la larghezza di banda della memoria GPU. Recenti lavori hanno esplorato la compressione della cache KV, tuttavia la maggior parte degli approcci trascura la natura dipendente dai dati delle cache KV e la loro variazione tra i diversi layer. Introduciamo KV-CoRE (KV-cache Compressibility by Rank Evaluation), un metodo basato su SVD per quantificare la compressibilità a rango basso e dipendente dai dati delle cache KV. KV-CoRE calcola l'approssimazione ottimale a rango basso sotto la norma di Frobenius e, essendo privo di gradienti e incrementale, consente una valutazione efficiente a livello di dataset e per layer. Utilizzando questo metodo, analizziamo diversi modelli e dataset che coprono cinque domini inglesi e sedici lingue, rilevando schemi sistematici che collegano la compressibilità all'architettura del modello, ai dati di addestramento e alla copertura linguistica. Come parte di questa analisi, impieghiamo il Rango Efficace Normalizzato come metrica di compressibilità e dimostriamo che esso correla fortemente con il degrado delle prestazioni sotto compressione. Il nostro studio stabilisce un framework di valutazione basato su principi e il primo benchmark su larga scala della compressibilità delle cache KV negli LLM, offrendo spunti per una compressione dinamica e data-aware e per uno sviluppo di modelli incentrato sui dati.
English
Large language models rely on kv-caches to avoid redundant computation during autoregressive decoding, but as context length grows, reading and writing the cache can quickly saturate GPU memory bandwidth. Recent work has explored KV-cache compression, yet most approaches neglect the data-dependent nature of kv-caches and their variation across layers. We introduce KV-CoRE KV-cache Compressibility by Rank Evaluation), an SVD-based method for quantifying the data-dependent low-rank compressibility of kv-caches. KV-CoRE computes the optimal low-rank approximation under the Frobenius norm and, being gradient-free and incremental, enables efficient dataset-level, layer-wise evaluation. Using this method, we analyze multiple models and datasets spanning five English domains and sixteen languages, uncovering systematic patterns that link compressibility to model architecture, training data, and language coverage. As part of this analysis, we employ the Normalized Effective Rank as a metric of compressibility and show that it correlates strongly with performance degradation under compression. Our study establishes a principled evaluation framework and the first large-scale benchmark of kv-cache compressibility in LLMs, offering insights for dynamic, data-aware compression and data-centric model development.