KVzip : Compression de cache KV indépendante des requêtes avec reconstruction de contexte
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
May 29, 2025
Auteurs: Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song
cs.AI
Résumé
Les grands modèles de langage (LLM) basés sur l'architecture Transformer stockent le contexte sous forme de paires clé-valeur (KV) lors de l'inférence. À mesure que la longueur du contexte augmente, la taille du cache KV s'étend, entraînant une surcharge mémoire importante et une latence accrue dans le mécanisme d'attention. Cet article présente KVzip, une méthode d'éviction du cache KV indépendante des requêtes, permettant une réutilisation efficace des caches KV compressés pour diverses requêtes. KVzip quantifie l'importance d'une paire KV en utilisant le LLM sous-jacent pour reconstruire les contextes originaux à partir des paires KV mises en cache, puis évince les paires de moindre importance. Des évaluations empiriques approfondies montrent que KVzip réduit la taille du cache KV de 3 à 4 fois et la latence de décodage FlashAttention d'environ 2 fois, avec une perte de performance négligeable dans les tâches de questions-réponses, de recherche, de raisonnement et de compréhension de code. Les évaluations incluent divers modèles tels que LLaMA3.1-8B, Qwen2.5-14B et Gemma3-12B, avec des longueurs de contexte atteignant jusqu'à 170 000 tokens. KVzip surpasse significativement les méthodes d'éviction KV existantes dépendantes des requêtes, qui subissent une dégradation des performances même avec un budget de cache de 90 % dans des scénarios multi-requêtes.
English
Transformer-based large language models (LLMs) cache context as key-value
(KV) pairs during inference. As context length grows, KV cache sizes expand,
leading to substantial memory overhead and increased attention latency. This
paper introduces KVzip, a query-agnostic KV cache eviction method enabling
effective reuse of compressed KV caches across diverse queries. KVzip
quantifies the importance of a KV pair using the underlying LLM to reconstruct
original contexts from cached KV pairs, subsequently evicting pairs with lower
importance. Extensive empirical evaluations demonstrate that KVzip reduces KV
cache size by 3-4times and FlashAttention decoding latency by approximately
2times, with negligible performance loss in question-answering, retrieval,
reasoning, and code comprehension tasks. Evaluations include various models
such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching
up to 170K tokens. KVzip significantly outperforms existing query-aware KV
eviction methods, which suffer from performance degradation even at a 90% cache
budget ratio under multi-query scenarios.Summary
AI-Generated Summary