ChunkKV : Compression de cache KV préservant la sémantique pour une inférence efficace de LLM à long context.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Auteurs: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Résumé
Pour réduire les coûts de mémoire dans l'inférence à long contexte avec les Modèles de Langage de Grande Taille (LLM), de nombreux travaux récents se concentrent sur la compression du cache clé-valeur (KV) de différents jetons. Cependant, nous identifions que les méthodes de compression de cache KV précédentes mesurent l'importance des jetons individuellement, en négligeant la dépendance entre différents jetons dans les caractéristiques linguistiques du monde réel. Dans ce contexte, nous introduisons ChunkKV, regroupant les jetons dans un bloc comme unité de compression de base, et conservant les blocs sémantiques les plus informatifs tout en rejetant les moins importants. De plus, en observant que ChunkKV présente une similarité plus élevée dans les indices conservés à travers différentes couches, nous proposons une réutilisation des indices par couche pour réduire davantage les coûts de calcul. Nous avons évalué ChunkKV sur des référentiels de long contexte de pointe, notamment LongBench et Needle-In-A-HayStack, ainsi que sur le référentiel d'apprentissage en contexte GSM8K et JailbreakV. Nos expériences avec l'optimisation des instructions et les LLM de raisonnement multi-étapes (O1 et R1) ont permis d'atteindre jusqu'à 10\% d'amélioration des performances avec des taux de compression agressifs par rapport aux méthodes existantes.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary