LookaheadKV: Snelle en Nauwkeurige KV-Cache-Vervanging door een Blik in de Toekomst zonder Generatie

Samenvatting

Transformer-gebaseerde grote taalmmodellen (LLM's) maken gebruik van key-value (KV)-caching om redundante berekeningen tijdens autoregressieve inferentie te vermijden. Hoewel dit mechanisme de efficiëntie aanzienlijk verbetert, groeit de cache-grootte lineair met de invoerreekslengte, wat snel een knelpunt wordt bij taken met een lange context. Bestaande oplossingen verzachten dit probleem door KV-gegevens van de prompt die als onbelangrijk worden beschouwd te verwijderen, geleid door geschatte belangrijkheidsscores. Met name een recente onderzoekslijn stelt voor om de verwijderingskwaliteit te verbeteren door "in de toekomst te gluren", waarbij een conceptgenerator een surrogaat-antwoord produceert dat de werkelijke respons van het doelmodel benadert, en dit surrogaat vervolgens gebruikt wordt om het belang van gecachete KV nauwkeuriger in te schatten. Deze benaderingen zijn echter afhankelijk van rekenintensieve conceptgeneratie, wat aanzienlijke prefilling-overhead introduceert en hun praktische toepasbaarheid in de praktijk beperkt. Om deze uitdaging aan te pakken, stellen wij LookaheadKV voor, een lichtgewicht verwijderingsframework dat de kracht van surrogaat-toekomstrespons benut zonder expliciete conceptgeneratie te vereisen. LookaheadKV breidt transformer-lagen uit met parameter-efficiënte modules die zijn getraind om werkelijke belangrijkheidsscores met hoge nauwkeurigheid te voorspellen. Ons ontwerp zorgt voor een verwaarloosbare runtime-overhead vergelijkbaar met bestaande goedkope heuristieken, terwijl een nauwkeurigheid wordt bereikt die superieur is aan duurdere approximatiemethoden. Uitgebreide experimenten op benchmarks voor langcontextueel begrip, over een breed scala aan modellen, tonen aan dat onze methode niet alleen recente competitieve baselines verslaat in diverse langcontextuele begriptaken, maar ook de verwijderingskosten met tot 14,5x verlaagt, wat leidt tot een aanzienlijk snellere tijd-tot-eerste-token. Onze code is beschikbaar op https://github.com/SamsungLabs/LookaheadKV.

English

Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.

LookaheadKV: Snelle en Nauwkeurige KV-Cache-Vervanging door een Blik in de Toekomst zonder Generatie

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Samenvatting

Support