Могут ли LLM сохранить основные возможности при сжатии кэша KV?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
February 4, 2025
Авторы: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Аннотация
Данная статья исследует малоисследованное вызов в больших языковых моделях (LLM): влияние методов сжатия кэша KV на фундаментальные возможности LLM. В то время как существующие методы достигают впечатляющих коэффициентов сжатия на бенчмарках с длинным контекстом, их воздействие на основные возможности модели остается малоизученным. Мы представляем комплексное эмпирическое исследование, оценивающее ведущие методы сжатия кэша KV на различных задачах, охватывающих мировые знания, здравый смысл, арифметическое рассуждение, генерацию кода, безопасность, понимание и генерацию длинного контекста. Наш анализ показывает, что методы сжатия кэша KV проявляют деградацию производительности, зависящую от задачи. Задачи арифметического рассуждения оказываются особенно чувствительными к агрессивному сжатию, с различными методами, показывающими снижение производительности на уровне 17,4%-43,3%. Заметно, что модель DeepSeek R1 Distill обладает более устойчивой толерантностью к сжатию по сравнению с моделями, настроенными на инструкции, показывая лишь 9,67%-25,53% деградации производительности. На основе нашего анализа образцов внимания и производительности сжатия между задачами мы предлагаем ShotKV, новый подход к сжатию, который отлично обрабатывает фазы предварительного заполнения и декодирования, сохраняя семантическую согласованность на уровне образца. Эмпирические результаты показывают, что ShotKV достигает улучшения производительности на уровне 9%-18% на задачах генерации длинного контекста при агрессивных коэффициентах сжатия.
English
This paper investigates an under-explored challenge in large language models
(LLMs): the impact of KV cache compression methods on LLMs' fundamental
capabilities. While existing methods achieve impressive compression ratios on
long-context benchmarks, their effects on core model capabilities remain
understudied. We present a comprehensive empirical study evaluating prominent
KV cache compression methods across diverse tasks, spanning world knowledge,
commonsense reasoning, arithmetic reasoning, code generation, safety, and
long-context understanding and generation.Our analysis reveals that KV cache
compression methods exhibit task-specific performance degradation. Arithmetic
reasoning tasks prove particularly sensitive to aggressive compression, with
different methods showing performance drops of 17.4%-43.3%. Notably, the
DeepSeek R1 Distill model exhibits more robust compression tolerance compared
to instruction-tuned models, showing only 9.67%-25.53% performance
degradation. Based on our analysis of attention patterns and cross-task
compression performance, we propose ShotKV, a novel compression approach that
distinctly handles prefill and decoding phases while maintaining shot-level
semantic coherence. Empirical results show that ShotKV achieves 9%-18%
performance improvements on long-context generation tasks under aggressive
compression ratios.Summary
AI-Generated Summary