CONF-KV: Evicção de cache KV consciente da confiança com armazenamento de precisão mista para LLM de horizonte longo

Resumo

A inferência de LLM de horizonte longo transforma o cache chave-valor (KV) no principal consumidor de memória da GPU e torna a atenção por token cada vez mais cara. Muitas políticas comuns de remoção usam janelas estáticas de recência ou atenção histórica, deixando sem uso um sinal computado a cada etapa de decodificação: a incerteza atual do modelo. Apresentamos o CONF-KV, um gerenciador de cache KV que converte a distribuição do próximo token em uma pontuação de confiança escalar e a utiliza para escolher o orçamento do cache por etapa, retendo mais contexto quando o modelo está incerto e podando agressivamente quando está confiante. Dentro de cada orçamento, os tokens são classificados por um composto de massa de atenção acumulada e recência, enquanto uma janela recente protegida preserva a coerência local. Combinamos a política com atenção softmax online em blocos, armazenamento misto FP16/INT8 e uma variante de orçamento piramidal por camada. Em quatro famílias de modelos e comprimentos gerados de até 4K, o CONF-KV mantém-se próximo da pegada de uma janela deslizante fixa de 512 tokens, enquanto permanece dentro de 1,5 a 2,1 pontos de perplexidade do KV completo. No teste Needle-in-a-Haystack com até 32K tokens, o CONF-KV atinge 91,4% de precisão de recuperação contra 53,8% para janelas deslizantes e 80,6% para H2O; em 75 tarefas do VisualWebArena, ele retém 95,3% do sucesso do KV completo com 2,8 vezes menos pico de memória.

English

Long-horizon LLM inference turns the key--value (KV) cache into the dominant GPU memory consumer and makes per-token attention increasingly expensive. Many common eviction policies use static recency windows or historical attention, leaving unused a signal computed on every decoding step: the model's current uncertainty. We introduce CONF-KV, a KV-cache manager that converts the next-token distribution into a scalar confidence score and uses it to choose the per-step cache budget, retaining more context when the model is uncertain and pruning aggressively when it is confident. Within each budget, tokens are ranked by a composite of accumulated attention mass and recency, while a protected recent window preserves local coherence. We combine the policy with blockwise online-softmax attention, mixed FP16/INT8 storage, and a pyramidal per-layer budget variant. Across four model families and generated lengths up to 4K, CONF-KV stays near the footprint of a fixed 512-token sliding window while remaining within 1.5--2.1 perplexity points of full KV. On Needle-in-a-Haystack up to 32K tokens, CONF-KV reaches 91.4% retrieval accuracy versus 53.8% for sliding windows and 80.6% for H2O; on 75 VisualWebArena tasks it retains 95.3% of full-KV success at 2.8 times lower peak memory.