Können LLMs grundlegende Fähigkeiten unter KV-Cache-Komprimierung aufrechterhalten?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
February 4, 2025
Autoren: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Zusammenfassung
Dieses Paper untersucht eine wenig erforschte Herausforderung bei großen Sprachmodellen (LLMs): den Einfluss von KV-Cache-Komprimierungsmethoden auf die grundlegenden Fähigkeiten von LLMs. Während bestehende Methoden beeindruckende Kompressionsraten bei Benchmarks mit langem Kontext erzielen, bleiben ihre Auswirkungen auf die Kernfähigkeiten des Modells unteruntersucht. Wir präsentieren eine umfassende empirische Studie, die führende KV-Cache-Komprimierungsmethoden über verschiedene Aufgaben hinweg evaluiert, darunter Weltwissen, gesunder Menschenverstand, arithmetisches Denken, Codegenerierung, Sicherheit sowie Verständnis und Generierung von langem Kontext. Unsere Analyse zeigt, dass KV-Cache-Komprimierungsmethoden aufgabenspezifische Leistungseinbußen aufweisen. Arithmetische Denkaufgaben erweisen sich als besonders sensibel gegenüber aggressiver Kompression, wobei verschiedene Methoden Leistungseinbußen von 17,4 % bis 43,3 % zeigen. Bemerkenswerterweise zeigt das DeepSeek R1 Distill-Modell eine robustere Kompressionsverträglichkeit im Vergleich zu instruktionsangepassten Modellen, wobei nur Leistungseinbußen von 9,67 % bis 25,53 % festgestellt werden. Basierend auf unserer Analyse von Aufmerksamkeitsmustern und der Leistungsfähigkeit der Kompression über Aufgaben hinweg schlagen wir ShotKV vor, einen neuartigen Kompressionsansatz, der präzise die Phasen der Vorabfüllung und Decodierung behandelt und dabei semantische Kohärenz auf Schotebene aufrechterhält. Empirische Ergebnisse zeigen, dass ShotKV bei aggressiven Kompressionsraten Leistungsverbesserungen von 9 % bis 18 % bei langen Kontextgenerierungsaufgaben erzielt.
English
This paper investigates an under-explored challenge in large language models
(LLMs): the impact of KV cache compression methods on LLMs' fundamental
capabilities. While existing methods achieve impressive compression ratios on
long-context benchmarks, their effects on core model capabilities remain
understudied. We present a comprehensive empirical study evaluating prominent
KV cache compression methods across diverse tasks, spanning world knowledge,
commonsense reasoning, arithmetic reasoning, code generation, safety, and
long-context understanding and generation.Our analysis reveals that KV cache
compression methods exhibit task-specific performance degradation. Arithmetic
reasoning tasks prove particularly sensitive to aggressive compression, with
different methods showing performance drops of 17.4%-43.3%. Notably, the
DeepSeek R1 Distill model exhibits more robust compression tolerance compared
to instruction-tuned models, showing only 9.67%-25.53% performance
degradation. Based on our analysis of attention patterns and cross-task
compression performance, we propose ShotKV, a novel compression approach that
distinctly handles prefill and decoding phases while maintaining shot-level
semantic coherence. Empirical results show that ShotKV achieves 9%-18%
performance improvements on long-context generation tasks under aggressive
compression ratios.Summary
AI-Generated Summary