KVzip: Compressione Agnóstica delle Query della Cache KV con Ricostruzione del Contesto
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
May 29, 2025
Autori: Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer memorizzano il contesto come coppie chiave-valore (KV) durante l'inferenza. Con l'aumentare della lunghezza del contesto, le dimensioni della cache KV si espandono, portando a un sovraccarico di memoria significativo e a una maggiore latenza nell'attenzione. Questo articolo introduce KVzip, un metodo di eliminazione della cache KV indipendente dalle query che consente un riutilizzo efficace delle cache KV compresse su diverse query. KVzip quantifica l'importanza di una coppia KV utilizzando il modello LLM sottostante per ricostruire i contesti originali dalle coppie KV memorizzate, eliminando successivamente le coppie con minore importanza. Valutazioni empiriche estensive dimostrano che KVzip riduce le dimensioni della cache KV di 3-4 volte e la latenza di decodifica di FlashAttention di circa 2 volte, con una perdita di prestazione trascurabile in compiti di risposta alle domande, recupero, ragionamento e comprensione del codice. Le valutazioni includono vari modelli come LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, con lunghezze del contesto che raggiungono fino a 170K token. KVzip supera significativamente i metodi esistenti di eliminazione della cache KV basati sulle query, che subiscono un degrado delle prestazioni anche con un rapporto di budget della cache del 90% in scenari multi-query.
English
Transformer-based large language models (LLMs) cache context as key-value
(KV) pairs during inference. As context length grows, KV cache sizes expand,
leading to substantial memory overhead and increased attention latency. This
paper introduces KVzip, a query-agnostic KV cache eviction method enabling
effective reuse of compressed KV caches across diverse queries. KVzip
quantifies the importance of a KV pair using the underlying LLM to reconstruct
original contexts from cached KV pairs, subsequently evicting pairs with lower
importance. Extensive empirical evaluations demonstrate that KVzip reduces KV
cache size by 3-4times and FlashAttention decoding latency by approximately
2times, with negligible performance loss in question-answering, retrieval,
reasoning, and code comprehension tasks. Evaluations include various models
such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching
up to 170K tokens. KVzip significantly outperforms existing query-aware KV
eviction methods, which suffer from performance degradation even at a 90% cache
budget ratio under multi-query scenarios.