Могут ли LLM сохранить основные возможности при сжатии кэша KV?

Аннотация

Данная статья исследует малоисследованное вызов в больших языковых моделях (LLM): влияние методов сжатия кэша KV на фундаментальные возможности LLM. В то время как существующие методы достигают впечатляющих коэффициентов сжатия на бенчмарках с длинным контекстом, их воздействие на основные возможности модели остается малоизученным. Мы представляем комплексное эмпирическое исследование, оценивающее ведущие методы сжатия кэша KV на различных задачах, охватывающих мировые знания, здравый смысл, арифметическое рассуждение, генерацию кода, безопасность, понимание и генерацию длинного контекста. Наш анализ показывает, что методы сжатия кэша KV проявляют деградацию производительности, зависящую от задачи. Задачи арифметического рассуждения оказываются особенно чувствительными к агрессивному сжатию, с различными методами, показывающими снижение производительности на уровне 17,4%-43,3%. Заметно, что модель DeepSeek R1 Distill обладает более устойчивой толерантностью к сжатию по сравнению с моделями, настроенными на инструкции, показывая лишь 9,67%-25,53% деградации производительности. На основе нашего анализа образцов внимания и производительности сжатия между задачами мы предлагаем ShotKV, новый подход к сжатию, который отлично обрабатывает фазы предварительного заполнения и декодирования, сохраняя семантическую согласованность на уровне образца. Эмпирические результаты показывают, что ShotKV достигает улучшения производительности на уровне 9%-18% на задачах генерации длинного контекста при агрессивных коэффициентах сжатия.

English

This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of 17.4%-43.3%. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only 9.67%-25.53% performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves 9%-18% performance improvements on long-context generation tasks under aggressive compression ratios.

Могут ли LLM сохранить основные возможности при сжатии кэша KV?

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

Аннотация

Support