ChatPaper.aiChatPaper

Kunnen LLM's Fundamentele Vaardigheden Behouden onder KV Cache Compressie?

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

February 4, 2025
Auteurs: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI

Samenvatting

Deze paper onderzoekt een onderbelichte uitdaging in grote taalmodellen (LLM's): de impact van KV-cachecompressiemethoden op de fundamentele mogelijkheden van LLM's. Hoewel bestaande methoden indrukwekkende compressieverhoudingen behalen op benchmarks met lange context, blijven hun effecten op de kernmogelijkheden van het model onderbelicht. We presenteren een uitgebreide empirische studie waarin prominente KV-cachecompressiemethoden worden geëvalueerd over diverse taken, variërend van wereldkennis, gezond verstand redeneren, rekenkundig redeneren, codegeneratie, veiligheid, en begrip en generatie van lange context. Onze analyse onthult dat KV-cachecompressiemethoden taakspecifieke prestatievermindering vertonen. Rekenkundige redeneertaken blijken bijzonder gevoelig te zijn voor agressieve compressie, waarbij verschillende methoden prestatiedalingen van 17,4% - 43,3% tonen. Opmerkelijk is dat het DeepSeek R1 Distill-model een robuustere compressietolerantie vertoont in vergelijking met op instructies afgestemde modellen, waarbij slechts 9,67% - 25,53% prestatievermindering wordt waargenomen. Op basis van onze analyse van aandachtspatronen en prestaties van compressie over taken heen, stellen we ShotKV voor, een nieuwe compressiebenadering die op een onderscheidende manier prefill- en decoderingsfasen behandelt terwijl het semantische coherentie op shot-niveau behoudt. Empirische resultaten tonen aan dat ShotKV 9% - 18% prestatieverbeteringen behaalt bij taken voor het genereren van lange context onder agressieve compressieverhoudingen.
English
This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of 17.4%-43.3%. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only 9.67%-25.53% performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves 9%-18% performance improvements on long-context generation tasks under aggressive compression ratios.

Summary

AI-Generated Summary

PDF152February 5, 2025