Fast KVzip: Inferenza Efficiente e Precisa dei LLM con Evizione KV Controllata

Abstract

La gestione efficiente della cache chiave-valore (KV) è cruciale per la distribuzione pratica dei grandi modelli linguistici (LLM), tuttavia le tecniche di compressione esistenti spesso comportano un compromesso tra degrado delle prestazioni e sovraccarico computazionale. Proponiamo un nuovo metodo di rimozione (eviction) della cache KV basato su gate per LLM con pesi congelati, che raggiunge alti rapporti di compressione con un costo computazionale trascurabile. Il nostro approccio introduce moduli di gating leggeri basati su sink-attention per identificare e conservare le coppie KV critiche, e si integra perfettamente sia nella fase di prefill che in quella di decoding. L'algoritmo di addestramento dei gate proposto si basa su passi in avanti (forward passes) di un LLM, evitando la costosa retropropagazione, pur raggiungendo una forte generalizzazione del compito attraverso un obiettivo di ricostruzione agnostico rispetto al task. Esperimenti estesi sulle famiglie Qwen2.5-1M, Qwen3 e Gemma3 mostrano che il nostro metodo mantiene prestazioni quasi-lossless rimuovendo fino al 70% della cache KV. I risultati sono coerenti su un'ampia gamma di compiti, inclusa la comprensione di contesti lunghi, la comprensione del codice e il ragionamento matematico, dimostrando la generalità del nostro approccio.

English

Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.

Fast KVzip: Inferenza Efficiente e Precisa dei LLM con Evizione KV Controllata

Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

Abstract

Support