KVzip : Compression de cache KV indépendante des requêtes avec reconstruction de contexte

papers.abstract

Les grands modèles de langage (LLM) basés sur l'architecture Transformer stockent le contexte sous forme de paires clé-valeur (KV) lors de l'inférence. À mesure que la longueur du contexte augmente, la taille du cache KV s'étend, entraînant une surcharge mémoire importante et une latence accrue dans le mécanisme d'attention. Cet article présente KVzip, une méthode d'éviction du cache KV indépendante des requêtes, permettant une réutilisation efficace des caches KV compressés pour diverses requêtes. KVzip quantifie l'importance d'une paire KV en utilisant le LLM sous-jacent pour reconstruire les contextes originaux à partir des paires KV mises en cache, puis évince les paires de moindre importance. Des évaluations empiriques approfondies montrent que KVzip réduit la taille du cache KV de 3 à 4 fois et la latence de décodage FlashAttention d'environ 2 fois, avec une perte de performance négligeable dans les tâches de questions-réponses, de recherche, de raisonnement et de compréhension de code. Les évaluations incluent divers modèles tels que LLaMA3.1-8B, Qwen2.5-14B et Gemma3-12B, avec des longueurs de contexte atteignant jusqu'à 170 000 tokens. KVzip surpasse significativement les méthodes d'éviction KV existantes dépendantes des requêtes, qui subissent une dégradation des performances même avec un budget de cache de 90 % dans des scénarios multi-requêtes.

English

Transformer-based large language models (LLMs) cache context as key-value (KV) pairs during inference. As context length grows, KV cache sizes expand, leading to substantial memory overhead and increased attention latency. This paper introduces KVzip, a query-agnostic KV cache eviction method enabling effective reuse of compressed KV caches across diverse queries. KVzip quantifies the importance of a KV pair using the underlying LLM to reconstruct original contexts from cached KV pairs, subsequently evicting pairs with lower importance. Extensive empirical evaluations demonstrate that KVzip reduces KV cache size by 3-4times and FlashAttention decoding latency by approximately 2times, with negligible performance loss in question-answering, retrieval, reasoning, and code comprehension tasks. Evaluations include various models such as LLaMA3.1-8B, Qwen2.5-14B, and Gemma3-12B, with context lengths reaching up to 170K tokens. KVzip significantly outperforms existing query-aware KV eviction methods, which suffer from performance degradation even at a 90% cache budget ratio under multi-query scenarios.

KVzip : Compression de cache KV indépendante des requêtes avec reconstruction de contexte

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

papers.abstract

Support