Wertbewusste stochastische KV-Cache-Verdrängung für Reasoning-Modelle

Zusammenfassung

Reasoning-Modelle verbessern die Genauigkeit durch erweiterte Gedankenketten, aber ihre langen Ausgaben verursachen einen Speicher- und Rechenengpass. KV-Cache-Verdrängungsmethoden reduzieren diese Kosten, indem sie unwichtige Schlüssel-Wert-Paare aus dem Cache verdrängen, doch liefern sie oft eine geringere Genauigkeit als auswahlbasierte sparse-Attention-Alternativen, die den vollständigen KV-Cache behalten. Wir identifizieren Schlüsselfaktoren, die für die Genauigkeit der KV-Cache-Verdrängung entscheidend sind. Erstens weist ein kleiner Teil der Wert-Zustände abnormal große Beträge auf, und deren Verdrängung führt zu katastrophalen Fehlern, bei denen Modelle in repetitive Gedankenschleifen geraten. Zweitens verbessert die Einführung von Stochastizität während der Verdrängung die Genauigkeit, indem sie die Cache-Diversität erhöht. Basierend auf diesen Erkenntnissen schlagen wir Value-aware Stochastic KV Cache Eviction (VaSE) vor, ein trainingsfreies Verfahren, das Wert-Zustände mit großer Magnitude schützt und vielfältige Verdrängungsentscheidungen fördert. Über sechs Reasoning-Aufgaben hinweg erzielen Qwen3-Modelle mit VaSE bei 4-facher KV-Cache-Kompression höhere durchschnittliche Genauigkeiten als die SOTA-Auswahlmethode bei gleicher Sparsity, während sie die stärkste Verdrängungsmethode um mehr als 4% übertreffen. Insgesamt überbrückt VaSE die Lücke zwischen Effizienz und Genauigkeit, unterstützt FlashAttention2 und ermöglicht einen statischen Speicher-Footprint für Reasoning-Modelle.

English

Reasoning models improve accuracy through extended chains of thought, but their long outputs create a memory and compute bottleneck. KV cache eviction methods reduce this cost by evicting unimportant key-value pairs from the cache, yet they often yield worse accuracy than selection-based sparse attention alternatives, which keep the full KV cache. We identify key factors crucial to KV cache eviction accuracy. First, a small fraction of value states have abnormally large magnitudes, and evicting them causes catastrophic failure where models enter repetitive reasoning loops. Second, introducing stochasticity during eviction improves accuracy by increasing cache diversity. Based on these findings, we propose Value-aware Stochastic KV Cache Eviction (VaSE), a training-free recipe that protects large-magnitude value states and promotes diverse eviction decisions. Across six reasoning tasks, Qwen3 models using VaSE with 4x KV cache compression yield higher average accuracies than SOTA selection method at the same sparsity, while outperforming the strongest eviction method by more than 4%. Overall, VaSE bridges the gap between efficiency and accuracy, supporting FlashAttention2 and enabling a static memory footprint for reasoning models.