CONF-KV: Eliminación de Caché KV Consciente de Confianza con Almacenamiento de Precisión Mixta para LLM de Horizonte Largo

Resumen

La inferencia de LLM en horizontes largos convierte la caché clave-valor (KV) en el consumidor dominante de memoria de GPU y hace que la atención por token sea cada vez más costosa. Muchas políticas de desalojo comunes utilizan ventanas de actualidad estáticas o atención histórica, dejando sin usar una señal que se calcula en cada paso de decodificación: la incertidumbre actual del modelo. Presentamos CONF-KV, un gestor de caché KV que convierte la distribución del siguiente token en una puntuación de confianza escalar y la utiliza para elegir el presupuesto de caché por paso, reteniendo más contexto cuando el modelo es incierto y podando agresivamente cuando es confiado. Dentro de cada presupuesto, los tokens se clasifican según una combinación de masa de atención acumulada y actualidad, mientras que una ventana reciente protegida preserva la coherencia local. Combinamos la política con atención softmax en línea por bloques, almacenamiento mixto FP16/INT8 y una variante piramidal de presupuesto por capa. En cuatro familias de modelos y longitudes generadas de hasta 4K, CONF-KV se mantiene cerca de la huella de una ventana deslizante fija de 512 tokens, permaneciendo dentro de 1,5 a 2,1 puntos de perplejidad respecto a la KV completa. En Needle-in-a-Haystack de hasta 32K tokens, CONF-KV alcanza un 91,4% de precisión de recuperación frente al 53,8% de las ventanas deslizantes y el 80,6% de H2O; en 75 tareas de VisualWebArena retiene el 95,3% del éxito de la KV completa con un pico de memoria 2,8 veces menor.

English

Long-horizon LLM inference turns the key--value (KV) cache into the dominant GPU memory consumer and makes per-token attention increasingly expensive. Many common eviction policies use static recency windows or historical attention, leaving unused a signal computed on every decoding step: the model's current uncertainty. We introduce CONF-KV, a KV-cache manager that converts the next-token distribution into a scalar confidence score and uses it to choose the per-step cache budget, retaining more context when the model is uncertain and pruning aggressively when it is confident. Within each budget, tokens are ranked by a composite of accumulated attention mass and recency, while a protected recent window preserves local coherence. We combine the policy with blockwise online-softmax attention, mixed FP16/INT8 storage, and a pyramidal per-layer budget variant. Across four model families and generated lengths up to 4K, CONF-KV stays near the footprint of a fixed 512-token sliding window while remaining within 1.5--2.1 perplexity points of full KV. On Needle-in-a-Haystack up to 32K tokens, CONF-KV reaches 91.4% retrieval accuracy versus 53.8% for sliding windows and 80.6% for H2O; on 75 VisualWebArena tasks it retains 95.3% of full-KV success at 2.8 times lower peak memory.