LookaheadKV: Schnelle und präzise KV-Cache-Auslagerung durch Blick in die Zukunft ohne Generierung

Zusammenfassung

Transformerbasierte große Sprachmodelle (LLMs) nutzen Key-Value (KV)-Caching, um redundante Berechnungen während des autoregressiven Inferenzvorgangs zu vermeiden. Obwohl dieser Mechanismus die Effizienz erheblich steigert, wächst die Cache-Größe linear mit der Eingabesequenzlänge und wird schnell zu einem Engpass bei Aufgaben mit langem Kontext. Bestehende Lösungen mildern dieses Problem, indem sie als unwichtig eingestufte Prompt-KV-Einträge anhand geschätzter Wichtigkeitswerte aus dem Cache entfernen. Besonders bemerkenswert ist eine aktuelle Forschungsrichtung, die vorschlägt, die Auslagerungsqualität durch einen "Blick in die Zukunft" zu verbessern: Dabei erzeugt ein Draft-Generator eine stellvertretende zukünftige Antwort, die die tatsächliche Antwort des Zielmodells annähert. Diese Stellvertreterantwort wird anschließend genutzt, um die Wichtigkeit der gecachten KV-Paare genauer zu schätzen. Diese Ansätze sind jedoch auf rechenintensive Draft-Generierung angewiesen, die erheblichen Prefilling-Overhead verursacht und ihre Praxistauglichkeit im realen Einsatz einschränkt. Um diese Herausforderung zu bewältigen, schlagen wir LookaheadKV vor, ein leichtgewichtiges Auslagerungsframework, das die Vorteile der stellvertretenden Zukunftsantwort nutzt, ohne explizite Draft-Generierung zu erfordern. LookaheadKV erweitert Transformer-Layer um parameter-effiziente Module, die darauf trainiert sind, echte Wichtigkeitswerte mit hoher Genauigkeit vorherzusagen. Unser Design gewährleistet einen vernachlässigbaren Laufzeit-Overhead, der mit bestehenden kostengünstigen Heuristiken vergleichbar ist, und erreicht gleichzeitig eine höhere Genauigkeit als aufwändigere Approximationsmethoden. Umfangreiche Experimente mit Benchmarks für das Langzeitkontextverständnis über eine breite Palette von Modellen hinweg zeigen, dass unsere Methode nicht nur aktuelle, wettbewerbsfähige Baseline-Verfahren in verschiedenen Aufgaben zum Verständnis langen Kontexts übertrifft, sondern auch die Auslagerungskosten um bis zum 14,5-fachen reduziert, was zu einer deutlich schnelleren Time-to-First-Token führt. Unser Code ist verfügbar unter https://github.com/SamsungLabs/LookaheadKV.

English

Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.

LookaheadKV: Schnelle und präzise KV-Cache-Auslagerung durch Blick in die Zukunft ohne Generierung

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Zusammenfassung

Support