LookaheadKV : Éviction rapide et précise du cache KV en anticipant le futur sans génération
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
March 11, 2026
Auteurs: Jinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon
cs.AI
Résumé
Les grands modèles de langage (LLM) basés sur l'architecture Transformer s'appuient sur la mise en cache clé-valeur (KV) pour éviter les calculs redondants lors de l'inférence autoregressive. Bien que ce mécanisme améliore considérablement l'efficacité, la taille du cache croît linéairement avec la longueur de la séquence d'entrée, devenant rapidement un goulot d'étranglement pour les tâches à contexte long. Les solutions existantes atténuent ce problème en évacuant les tokens d'entrée (prompt) KV jugés non importants, guidées par des scores d'importance estimés. Notamment, des travaux récents proposent d'améliorer la qualité de l'éviction en se "projetant dans le futur" : un générateur d'ébauche produit une réponse future substitutive approximant la réponse réelle du modèle cible, laquelle est ensuite utilisée pour estimer plus précisément l'importance des entrées KV en cache. Cependant, ces approches reposent sur une génération d'ébauche computationally coûteuse, qui introduit une surcharge substantielle lors de la phase de pré-remplissage (prefilling) et limite leur praticité dans un déploiement réel. Pour relever ce défi, nous proposons LookaheadKV, un cadre d'éviction léger qui exploite la puissance de la réponse future substitutive sans nécessiter de génération explicite d'ébauche. LookaheadKV augmente les couches Transformer avec des modules à efficacité paramétrique, entraînés à prédire avec une grande précision les véritables scores d'importance. Notre conception garantit une surcharge d'exécution négligeable, comparable aux heuristiques peu coûteuses existantes, tout en atteignant une précision supérieure aux méthodes d'approximation plus onéreuses. Des expériences approfondies sur des benchmarks de compréhension à contexte long, couvrant un large éventail de modèles, démontrent que notre méthode surpasse non seulement les bases de référence récentes et compétitives dans diverses tâches de compréhension, mais réduit également le coût de l'éviction jusqu'à 14,5 fois, conduisant à un temps jusqu'au premier token (time-to-first-token) significativement plus rapide. Notre code est disponible à l'adresse https://github.com/SamsungLabs/LookaheadKV.
English
Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.