Les LLM peuvent-ils maintenir leurs capacités fondamentales sous compression de cache KV ?

papers.abstract

Cet article examine un défi peu exploré dans les grands modèles de langage (LLMs) : l'impact des méthodes de compression de cache KV sur les capacités fondamentales des LLMs. Alors que les méthodes existantes atteignent des taux de compression impressionnants sur des bancs d'essai à contexte long, leurs effets sur les capacités centrales du modèle restent peu étudiés. Nous présentons une étude empirique complète évaluant des méthodes de compression de cache KV de premier plan sur des tâches diverses, couvrant les connaissances mondiales, le raisonnement de bon sens, le raisonnement arithmétique, la génération de code, la sécurité, ainsi que la compréhension et la génération de contexte long. Notre analyse révèle que les méthodes de compression de cache KV présentent une dégradation des performances spécifique à la tâche. Les tâches de raisonnement arithmétique se révèlent particulièrement sensibles à une compression agressive, avec des baisses de performances allant de 17,4 % à 43,3 % selon les méthodes. Notamment, le modèle DeepSeek R1 Distill montre une tolérance à la compression plus robuste par rapport aux modèles ajustés aux instructions, n'affichant qu'une dégradation de performances de 9,67 % à 25,53 %. Sur la base de notre analyse des schémas d'attention et des performances de compression inter-tâches, nous proposons ShotKV, une nouvelle approche de compression qui gère distinctement les phases de préremplissage et de décodage tout en maintenant une cohérence sémantique au niveau des "shots". Les résultats empiriques montrent que ShotKV obtient des améliorations de performances de 9 % à 18 % sur les tâches de génération de contexte long avec des taux de compression agressifs.

English

This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of 17.4%-43.3%. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only 9.67%-25.53% performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves 9%-18% performance improvements on long-context generation tasks under aggressive compression ratios.

Les LLM peuvent-ils maintenir leurs capacités fondamentales sous compression de cache KV ?

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

papers.abstract

Support