ChatPaper.aiChatPaper

LookaheadKV: Rimozione Rapida e Precisa della Cache KV Anticipando il Futuro senza Generazione

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

March 11, 2026
Autori: Jinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon
cs.AI

Abstract

I grandi modelli linguistici (LLM) basati su architetture Transformer si basano sulla memorizzazione in cache chiave-valore (KV) per evitare calcoli ridondanti durante l'inferenza autoregressiva. Sebbene questo meccanismo migliori notevolmente l'efficienza, la dimensione della cache cresce linearmente con la lunghezza della sequenza in input, diventando rapidamente un collo di bottiglia per i task a contesto lungo. Le soluzioni esistenti mitigano questo problema rimuovendo i KV del prompt considerati non importanti, guidati da punteggi di importanza stimati. In particolare, una recente linea di ricerca propone di migliorare la qualità dell'eliminazione "dando un'occhiata al futuro", in cui un generatore di bozze produce una risposta futura surrogata che approssima la risposta reale del modello target, e questo surrogato viene successivamente utilizzato per stimare più accuratamente l'importanza dei KV memorizzati nella cache. Tuttavia, questi approcci si basano su una generazione di bozze computazionalmente costosa, che introduce un sovraccarico sostanziale nella fase di prefilling e ne limita la praticità nel deployment reale. Per affrontare questa sfida, proponiamo LookaheadKV, un framework di eliminazione leggero che sfrutta i vantaggi della risposta futura surrogata senza richiedere una generazione esplicita di bozze. LookaheadKV potenzia i layer del transformer con moduli efficienti in termini di parametri, addestrati per predire i punteggi di importanza reali con alta accuratezza. Il nostro design garantisce un trascurabile sovraccarico a runtime, paragonabile alle euristiche poco costose esistenti, pur raggiungendo un'accuratezza superiore a metodi di approssimazione più costosi. Esperimenti estesi su benchmark di comprensione a contesto lungo, su una vasta gamma di modelli, dimostrano che il nostro metodo non solo supera le recenti baseline competitive in varie task di comprensione a contesto lungo, ma riduce anche il costo dell'eliminazione fino a 14.5 volte, portando a un tempo per il primo token significativamente più rapido. Il nostro codice è disponibile all'indirizzo https://github.com/SamsungLabs/LookaheadKV.
English
Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.
PDF62March 30, 2026