CONF-KV: Vertrouwensbewuste KV-cache-verwijdering met gemengde-precisieopslag voor lange-horizon LLM

Samenvatting

Lange-horizon LLM-inferentie maakt de key–value (KV) cache tot de dominante GPU-geheugenverbruiker en maakt per-token aandacht steeds duurder. Veel gangbare verwijderingsbeleid gebruiken statische recentheidsvensters of historische aandacht, waardoor een signaal dat bij elke decoderingstap wordt berekend ongebruikt blijft: de huidige onzekerheid van het model. We introduceren CONF-KV, een KV-cachebeheerder die de volgende-token verdeling omzet in een scalaire betrouwbaarheidsscore en deze gebruikt om het cachebudget per stap te kiezen, waarbij meer context wordt behouden wanneer het model onzeker is en agressief wordt gesnoeid wanneer het zeker is. Binnen elk budget worden tokens gerangschikt op basis van een samengestelde maat van geaccumuleerde aandachtmassa en recentheid, terwijl een beschermd recent venster lokale coherentie behoudt. We combineren het beleid met bloksgewijze online-softmax aandacht, gemengde FP16/INT8 opslag en een piramidale per-laag budgetvariant. Over vier modelfamilies en gegenereerde lengtes tot 4K blijft CONF-KV dicht bij de voetafdruk van een vast 512-token schuifvenster, terwijl het binnen 1,5–2,1 perplexiteitspunten van volledige KV blijft. Op Needle-in-a-Haystack tot 32K tokens bereikt CONF-KV 91,4% terugvindnauwkeurigheid tegenover 53,8% voor schuifvensters en 80,6% voor H2O; op 75 VisualWebArena-taken behoudt het 95,3% van het volledige-KV succes bij 2,8 keer lagere piekgeheugen.

English

Long-horizon LLM inference turns the key--value (KV) cache into the dominant GPU memory consumer and makes per-token attention increasingly expensive. Many common eviction policies use static recency windows or historical attention, leaving unused a signal computed on every decoding step: the model's current uncertainty. We introduce CONF-KV, a KV-cache manager that converts the next-token distribution into a scalar confidence score and uses it to choose the per-step cache budget, retaining more context when the model is uncertain and pruning aggressively when it is confident. Within each budget, tokens are ranked by a composite of accumulated attention mass and recency, while a protected recent window preserves local coherence. We combine the policy with blockwise online-softmax attention, mixed FP16/INT8 storage, and a pyramidal per-layer budget variant. Across four model families and generated lengths up to 4K, CONF-KV stays near the footprint of a fixed 512-token sliding window while remaining within 1.5--2.1 perplexity points of full KV. On Needle-in-a-Haystack up to 32K tokens, CONF-KV reaches 91.4% retrieval accuracy versus 53.8% for sliding windows and 80.6% for H2O; on 75 VisualWebArena tasks it retains 95.3% of full-KV success at 2.8 times lower peak memory.