LookaheadKV: Evicção Rápida e Precisa do Cache KV ao Vislumbrar o Futuro sem Geração

Resumo

Os grandes modelos de linguagem (LLMs) baseados em arquitetura Transformer dependem do cache de chave-valor (KV) para evitar computação redundante durante a inferência autoregressiva. Embora este mecanismo melhore significativamente a eficiência, o tamanho do cache cresce linearmente com o comprimento da sequência de entrada, tornando-se rapidamente um gargalo para tarefas de contexto longo. As soluções existentes mitigam este problema removendo (evicting) os pares KV do prompt considerados irrelevantes, guiadas por escores de importância estimados. Notavelmente, uma linha recente de trabalho propõe melhorar a qualidade da remoção "espreitando o futuro", na qual um gerador de rascunho produz uma resposta futura substituta que aproxima a resposta real do modelo alvo, e este substituto é subsequentemente usado para estimar a importância dos pares KV em cache com maior precisão. No entanto, estas abordagens dependem de uma geração de rascunho computacionalmente custosa, que introduz uma sobrecarga substancial no preenchimento prévio (prefilling) e limita sua praticidade em implantações do mundo real. Para enfrentar este desafio, propomos o LookaheadKV, um framework leve de remoção que aproveita a vantagem da resposta futura substituta sem exigir a geração explícita de um rascunho. O LookaheadKV aumenta as camadas do transformer com módulos de eficiência de parâmetros (parameter-efficient) treinados para prever os escores de importância reais com alta precisão. Nosso projeto garante uma sobrecarga de tempo de execução negligenciável, comparável a heurísticas baratas existentes, enquanto alcança uma precisão superior a métodos de aproximação mais custosos. Extensivos experimentos em benchmarks de compreensão de contexto longo, através de uma ampla gama de modelos, demonstram que nosso método não apenas supera bases de comparação (baselines) competitivas recentes em várias tarefas de compreensão de contexto longo, mas também reduz o custo da remoção em até 14,5 vezes, resultando em um tempo para o primeiro token (time-to-first-token) significativamente mais rápido. Nosso código está disponível em https://github.com/SamsungLabs/LookaheadKV.

English

Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.

LookaheadKV: Evicção Rápida e Precisa do Cache KV ao Vislumbrar o Futuro sem Geração

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Resumo

Support