KVzip: Compressione Agnóstica delle Query della Cache KV con Ricostruzione del Contesto

Abstract

I modelli linguistici di grandi dimensioni (LLM) basati su Transformer memorizzano il contesto come coppie chiave-valore (KV) durante l'inferenza. Con l'aumentare della lunghezza del contesto, le dimensioni della cache KV si espandono, portando a un sovraccarico di memoria significativo e a una maggiore latenza nell'attenzione. Questo articolo introduce KVzip, un metodo di eliminazione della cache KV indipendente dalle query che consente un riutilizzo efficace delle cache KV compresse su diverse query. KVzip quantifica l'importanza di una coppia KV utilizzando il modello LLM sottostante per ricostruire i contesti originali dalle coppie KV memorizzate, eliminando successivamente le coppie con minore importanza. Valutazioni empiriche estensive dimostrano che KVzip riduce le dimensioni della cache KV di 3-4 volte e la latenza di decodifica di FlashAttention di circa 2 volte, con una perdita di prestazione trascurabile in compiti di risposta alle domande, recupero, ragionamento e comprensione del codice. Le valutazioni includono vari modelli come LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, con lunghezze del contesto che raggiungono fino a 170K token. KVzip supera significativamente i metodi esistenti di eliminazione della cache KV basati sulle query, che subiscono un degrado delle prestazioni anche con un rapporto di budget della cache del 90% in scenari multi-query.

English

Transformer-based large language models (LLMs) cache context as key-value (KV) pairs during inference. As context length grows, KV cache sizes expand, leading to substantial memory overhead and increased attention latency. This paper introduces KVzip, a query-agnostic KV cache eviction method enabling effective reuse of compressed KV caches across diverse queries. KVzip quantifies the importance of a KV pair using the underlying LLM to reconstruct original contexts from cached KV pairs, subsequently evicting pairs with lower importance. Extensive empirical evaluations demonstrate that KVzip reduces KV cache size by 3-4times and FlashAttention decoding latency by approximately 2times, with negligible performance loss in question-answering, retrieval, reasoning, and code comprehension tasks. Evaluations include various models such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching up to 170K tokens. KVzip significantly outperforms existing query-aware KV eviction methods, which suffer from performance degradation even at a 90% cache budget ratio under multi-query scenarios.

KVzip: Compressione Agnóstica delle Query della Cache KV con Ricostruzione del Contesto

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

Abstract

Support