CONF-KV: Konfidenzbewusste KV-Cache-Verdrängung mit Mixed-Precision-Speicherung für Langzeithorizont-LLMs

Zusammenfassung

Langzeithorizont-LLM-Inferenz macht den Key-Value (KV)-Cache zum dominanten GPU-Speicherverbraucher und erhöht die Kosten der Aufmerksamkeit pro Token zunehmend. Viele gängige Verdrängungsstrategien verwenden statische Aktualitätsfenster oder historische Aufmerksamkeit und lassen dabei ein Signal ungenutzt, das bei jedem Dekodierungsschritt berechnet wird: die aktuelle Unsicherheit des Modells. Wir stellen CONF-KV vor, einen KV-Cache-Manager, der die Verteilung des nächsten Tokens in einen skalaren Konfidenzwert umwandelt und diesen nutzt, um das Cache-Budget pro Schritt zu wählen – wobei bei Unsicherheit des Modells mehr Kontext beibehalten und bei hoher Konfidenz aggressiv gekürzt wird. Innerhalb jedes Budgets werden Tokens nach einer Kombination aus akkumulierter Aufmerksamkeitsmasse und Aktualität eingestuft, während ein geschütztes aktuelles Fenster die lokale Kohärenz bewahrt. Wir kombinieren die Strategie mit blockweiser Online-Softmax-Aufmerksamkeit, gemischtem FP16/INT8-Speicher und einer pyramidalen Variante des Budgets pro Schicht. Über vier Modellfamilien und generierte Längen bis zu 4K hinweg bleibt CONF-KV nahe am Speicherfußabdruck eines festen gleitenden Fensters von 512 Tokens, während es innerhalb von 1,5–2,1 Perplexitätspunkten des vollständigen KV bleibt. Bei Needle-in-a-Haystack mit bis zu 32K Tokens erreicht CONF-KV eine Abrufgenauigkeit von 91,4 % gegenüber 53,8 % für gleitende Fenster und 80,6 % für H2O; bei 75 VisualWebArena-Aufgaben behält es 95,3 % des Erfolgs des vollständigen KV bei 2,8-fach geringerem Spitzenspeicher.

English

Long-horizon LLM inference turns the key--value (KV) cache into the dominant GPU memory consumer and makes per-token attention increasingly expensive. Many common eviction policies use static recency windows or historical attention, leaving unused a signal computed on every decoding step: the model's current uncertainty. We introduce CONF-KV, a KV-cache manager that converts the next-token distribution into a scalar confidence score and uses it to choose the per-step cache budget, retaining more context when the model is uncertain and pruning aggressively when it is confident. Within each budget, tokens are ranked by a composite of accumulated attention mass and recency, while a protected recent window preserves local coherence. We combine the policy with blockwise online-softmax attention, mixed FP16/INT8 storage, and a pyramidal per-layer budget variant. Across four model families and generated lengths up to 4K, CONF-KV stays near the footprint of a fixed 512-token sliding window while remaining within 1.5--2.1 perplexity points of full KV. On Needle-in-a-Haystack up to 32K tokens, CONF-KV reaches 91.4% retrieval accuracy versus 53.8% for sliding windows and 80.6% for H2O; on 75 VisualWebArena tasks it retains 95.3% of full-KV success at 2.8 times lower peak memory.