ChunkKV: Semantisch erhaltende KV-Cache-Kompression zur effizienten Inferenz von Langkontext-Sprachmodellen.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Autoren: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Zusammenfassung
Um die Speicherkosten bei der Inferenz mit Large Language Models (LLMs) und langem Kontext zu reduzieren, konzentrieren sich viele aktuelle Arbeiten auf die Komprimierung des Schlüssel-Wert (KV)-Caches verschiedener Tokens. Wir stellen jedoch fest, dass die bisherigen Methoden zur KV-Cache-Komprimierung die Bedeutung der Tokens individuell messen und die Abhängigkeit zwischen verschiedenen Tokens in den sprachlichen Eigenschaften der realen Welt vernachlässigen. Vor diesem Hintergrund führen wir ChunkKV ein, das die Tokens in einem Chunk als grundlegende Kompressionseinheit gruppiert und die informativsten semantischen Chunks beibehält, während weniger wichtige verworfen werden. Darüber hinaus schlagen wir aufgrund der höheren Ähnlichkeit der erhaltenen Indizes über verschiedene Ebenen hinweg vor, den Index-Wiederverwendung auf Ebenenebene einzuführen, um den Rechenaufwand weiter zu reduzieren. Wir haben ChunkKV an führenden Benchmarks für langen Kontext wie LongBench und Needle-In-A-HayStack sowie am GSM8K- und JailbreakV-In-Context-Lernbenchmark evaluiert. Unsere Experimente mit der Anweisungsabstimmung und den LLMs für Mehrschritt-Argumentation (O1 und R1) erzielen bei aggressiven Kompressionsraten im Vergleich zu bestehenden Methoden eine Leistungssteigerung von bis zu 10\%.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary