KVzip: Abfrage-agnostische KV-Cache-Kompression mit Kontextrekonstruktion

papers.abstract

Transformer-basierte große Sprachmodelle (LLMs) speichern Kontext während der Inferenz als Schlüssel-Wert-Paare (KV-Paare). Mit zunehmender Kontextlänge vergrößern sich die KV-Cache-Größen, was zu erheblichem Speicheraufwand und erhöhter Aufmerksamkeitslatenz führt. Dieses Papier stellt KVzip vor, eine abfrageunabhängige KV-Cache-Evakuierungsmethode, die die effektive Wiederverwendung komprimierter KV-Caches über verschiedene Abfragen hinweg ermöglicht. KVzip quantifiziert die Bedeutung eines KV-Paares mithilfe des zugrunde liegenden LLMs, um den ursprünglichen Kontext aus den zwischengespeicherten KV-Paaren zu rekonstruieren, und entfernt anschließend Paare mit geringerer Bedeutung. Umfangreiche empirische Auswertungen zeigen, dass KVzip die KV-Cache-Größe um das 3- bis 4-fache reduziert und die FlashAttention-Decodierungslatenz um etwa das 2-fache verringert, bei vernachlässigbarem Leistungsverlust in Aufgaben wie Frage-Antwort, Retrieval, logischem Schlussfolgern und Code-Verständnis. Die Auswertungen umfassen verschiedene Modelle wie LLaMA3.1-8B, Qwen2.5-14B und Gemma3-12B, mit Kontextlängen von bis zu 170.000 Tokens. KVzip übertrifft deutlich bestehende abfrageabhängige KV-Evakuierungsmethoden, die selbst bei einem Cache-Budget-Verhältnis von 90% unter Mehrfachabfrageszenarien an Leistungseinbußen leiden.

English

Transformer-based large language models (LLMs) cache context as key-value (KV) pairs during inference. As context length grows, KV cache sizes expand, leading to substantial memory overhead and increased attention latency. This paper introduces KVzip, a query-agnostic KV cache eviction method enabling effective reuse of compressed KV caches across diverse queries. KVzip quantifies the importance of a KV pair using the underlying LLM to reconstruct original contexts from cached KV pairs, subsequently evicting pairs with lower importance. Extensive empirical evaluations demonstrate that KVzip reduces KV cache size by 3-4times and FlashAttention decoding latency by approximately 2times, with negligible performance loss in question-answering, retrieval, reasoning, and code comprehension tasks. Evaluations include various models such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching up to 170K tokens. KVzip significantly outperforms existing query-aware KV eviction methods, which suffer from performance degradation even at a 90% cache budget ratio under multi-query scenarios.

KVzip: Abfrage-agnostische KV-Cache-Kompression mit Kontextrekonstruktion

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

papers.abstract

Support