Possono i LLM mantenere le capacità fondamentali sotto compressione della cache KV?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
February 4, 2025
Autori: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Abstract
Questo articolo indaga una sfida poco esplorata nei grandi modelli linguistici (LLM): l'impatto dei metodi di compressione della cache KV sulle capacità fondamentali dei LLM. Mentre i metodi esistenti raggiungono impressionanti rapporti di compressione su benchmark a lungo contesto, i loro effetti sulle capacità fondamentali del modello rimangono poco studiati. Presentiamo uno studio empirico completo che valuta prominenti metodi di compressione della cache KV su diverse attività, che spaziano dalla conoscenza del mondo, al ragionamento di senso comune, al ragionamento aritmetico, alla generazione di codice, alla sicurezza e alla comprensione e generazione di contesti lunghi. La nostra analisi rivela che i metodi di compressione della cache KV mostrano degrado delle prestazioni specifico per l'attività. Le attività di ragionamento aritmetico si dimostrano particolarmente sensibili alla compressione aggressiva, con diversi metodi che mostrano cali delle prestazioni del 17,4%-43,3%. In particolare, il modello DeepSeek R1 Distill mostra una tolleranza alla compressione più robusta rispetto ai modelli ottimizzati per le istruzioni, mostrando solo un degrado delle prestazioni del 9,67%-25,53%. Sulla base della nostra analisi dei modelli di attenzione e delle prestazioni di compressione tra attività, proponiamo ShotKV, un nuovo approccio di compressione che gestisce distintamente le fasi di prefill e decodifica mantenendo coerenza semantica a livello di shot. I risultati empirici mostrano che ShotKV ottiene miglioramenti delle prestazioni del 9%-18% su attività di generazione di contesti lunghi con rapporti di compressione aggressivi.
English
This paper investigates an under-explored challenge in large language models
(LLMs): the impact of KV cache compression methods on LLMs' fundamental
capabilities. While existing methods achieve impressive compression ratios on
long-context benchmarks, their effects on core model capabilities remain
understudied. We present a comprehensive empirical study evaluating prominent
KV cache compression methods across diverse tasks, spanning world knowledge,
commonsense reasoning, arithmetic reasoning, code generation, safety, and
long-context understanding and generation.Our analysis reveals that KV cache
compression methods exhibit task-specific performance degradation. Arithmetic
reasoning tasks prove particularly sensitive to aggressive compression, with
different methods showing performance drops of 17.4%-43.3%. Notably, the
DeepSeek R1 Distill model exhibits more robust compression tolerance compared
to instruction-tuned models, showing only 9.67%-25.53% performance
degradation. Based on our analysis of attention patterns and cross-task
compression performance, we propose ShotKV, a novel compression approach that
distinctly handles prefill and decoding phases while maintaining shot-level
semantic coherence. Empirical results show that ShotKV achieves 9%-18%
performance improvements on long-context generation tasks under aggressive
compression ratios.Summary
AI-Generated Summary