ChatPaper.aiChatPaper

Os LLMs conseguem manter habilidades fundamentais sob compressão de cache KV?

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

February 4, 2025
Autores: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI

Resumo

Este artigo investiga um desafio pouco explorado em modelos de linguagem grandes (LLMs): o impacto dos métodos de compressão de cache KV nas capacidades fundamentais dos LLMs. Enquanto os métodos existentes alcançam índices impressionantes de compressão em benchmarks de contexto longo, seus efeitos nas capacidades principais do modelo permanecem pouco estudados. Apresentamos um estudo empírico abrangente que avalia métodos proeminentes de compressão de cache KV em diversas tarefas, abrangendo conhecimento mundial, raciocínio do senso comum, raciocínio aritmético, geração de código, segurança e compreensão e geração de contexto longo. Nossa análise revela que os métodos de compressão de cache KV apresentam degradação de desempenho específica da tarefa. Tarefas de raciocínio aritmético mostram-se particularmente sensíveis à compressão agressiva, com diferentes métodos apresentando quedas de desempenho de 17,4% a 43,3%. Notavelmente, o modelo DeepSeek R1 Distill exibe uma tolerância de compressão mais robusta em comparação com modelos ajustados por instrução, apresentando apenas uma degradação de desempenho de 9,67% a 25,53%. Com base em nossa análise de padrões de atenção e desempenho de compressão entre tarefas, propomos o ShotKV, uma abordagem de compressão inovadora que lida de forma distinta com as fases de pré-preenchimento e decodificação, mantendo a coerência semântica em nível de shot. Resultados empíricos mostram que o ShotKV alcança melhorias de desempenho de 9% a 18% em tarefas de geração de contexto longo sob índices agressivos de compressão.
English
This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of 17.4%-43.3%. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only 9.67%-25.53% performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves 9%-18% performance improvements on long-context generation tasks under aggressive compression ratios.

Summary

AI-Generated Summary

PDF152February 5, 2025