ChatPaper.aiChatPaper

LookaheadKV: Evicción Rápida y Precisa de la Caché KV mediante una Mirada al Futuro sin Generación

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

March 11, 2026
Autores: Jinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) basados en transformadores dependen del almacenamiento en caché de claves-valores (KV) para evitar cálculos redundantes durante la inferencia autoregresiva. Si bien este mecanismo mejora considerablemente la eficiencia, el tamaño de la caché crece linealmente con la longitud de la secuencia de entrada, convirtiéndose rápidamente en un cuello de botella para tareas de contexto largo. Las soluciones existentes mitigan este problema eliminando los KV del *prompt* que se consideran poco importantes, guiadas por puntuaciones de importancia estimadas. Cabe destacar que una línea de trabajo reciente propone mejorar la calidad de la eliminación "echando un vistazo al futuro", mediante la cual un generador de borradores produce una respuesta futura sustituta que aproxima la respuesta real del modelo objetivo, y esta sustituta se utiliza posteriormente para estimar la importancia de los KV en caché con mayor precisión. Sin embargo, estos enfoques dependen de una generación de borradores computacionalmente costosa, lo que introduce una sobrecarga sustancial de prefiltrado y limita su practicidad en implementaciones del mundo real. Para abordar este desafío, proponemos LookaheadKV, un marco de trabajo de eliminación ligero que aprovecha la fortaleza de la respuesta futura sustituta sin requerir una generación explícita de borradores. LookaheadKV aumenta las capas del transformador con módulos eficientes en parámetros entrenados para predecir las puntuaciones de importancia reales con alta precisión. Nuestro diseño garantiza una sobrecarga de tiempo de ejecución insignificante, comparable a las heurísticas económicas existentes, mientras logra una precisión superior a los métodos de aproximación más costosos. Extensos experimentos en puntos de referencia de comprensión de contexto largo, en una amplia gama de modelos, demuestran que nuestro método no solo supera a líneas base competitivas recientes en diversas tareas de comprensión de contexto largo, sino que también reduce el costo de eliminación hasta en 14.5x, lo que conduce a un tiempo hasta el primer token significativamente más rápido. Nuestro código está disponible en https://github.com/SamsungLabs/LookaheadKV.
English
Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.
PDF62March 30, 2026