LookaheadKV: Быстрое и точное вытеснение KV-кэша путем предварительного просмотра будущего без генерации
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
March 11, 2026
Авторы: Jinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon
cs.AI
Аннотация
Крупные языковые модели (LLM) на основе архитектуры Transformer используют кэширование ключей и значений (KV-кэширование), чтобы избежать избыточных вычислений во время авторегрессионного вывода. Хотя этот механизм значительно повышает эффективность, размер кэша растет линейно с длиной входной последовательности, быстро становясь узким местом для задач с длинным контекстом. Существующие решения смягчают эту проблему путем вытеснения KV-пар промпта, которые считаются неважными, на основе расчетных оценок важности. Примечательно, что в ряде недавних работ предлагается улучшить качество вытеснения за счет «взгляда в будущее»: генератор черновиков создает суррогатный будущий ответ, аппроксимирующий истинный ответ целевой модели, который затем используется для более точной оценки важности кэшированных KV-пар. Однако эти подходы опираются на вычислительно дорогостоящее создание черновиков, что приводит к значительным накладным расходам на стадии предварительного заполнения и ограничивает их практическую применимость в реальных развертываниях. Для решения этой проблемы мы предлагаем LookaheadKV — облегченную систему вытеснения, которая использует преимущества суррогатного будущего ответа без необходимости явного создания черновиков. LookaheadKV дополняет слои Transformer параметрически эффективными модулями, обученными с высокой точностью предсказывать истинные оценки важности. Наша конструкция обеспечивает пренебрежимо малые накладные расходы в режиме выполнения, сопоставимые с существующими недорогими эвристиками, при этом достигая точности, превосходящей более затратные методы аппроксимации. Масштабные эксперименты на бенчмарках для понимания длинного контекста, проведенные для широкого спектра моделей, демонстрируют, что наш метод не только превосходит по производительности недавние конкурентоспособные базовые подходы в различных задачах понимания длинного контекста, но и снижает стоимость вытеснения до 14,5 раз, что приводит к значительному ускорению получения первого токена. Наш код доступен по адресу https://github.com/SamsungLabs/LookaheadKV.
English
Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.