KVarN: Varianznormalisierte KV-Cache-Quantisierung reduziert Fehlerakkumulation in Schlussfolgerungsaufgaben

Zusammenfassung

Testzeitskalierung ist ein leistungsstarker Ansatz zur Verbesserung des logischen Denkens in großen Sprachmodellen, wird jedoch bei der Dekodierung über lange Horizonte zu einem Speicherengpass, da der KV-Cache wächst. Eine KV-Cache-Quantisierung kann hier Abhilfe schaffen, doch aktuelle Methoden werden unter vorabfüllähnlichen Bedingungen evaluiert, und die Fehler verhalten sich unter autoregressiver Dekodierung anders. Wir zeigen, dass im letzteren Regime Quantisierungsfehler über die Zeitschritte hinweg akkumulieren, hauptsächlich verursacht durch falsche Tokenskalierungen. Wir stellen KVarN vor, einen kalibrierungsfreien KV-Cache-Quantisierer, der eine Hadamard-Rotation gefolgt von einer dualen Skalierungs-Varianznormalisierung über beide Achsen der K- und V-Matrizen anwendet. Wir stellen fest, dass diese Kombination Ausreißer-Tokenskalierungsfehler behebt und die Fehlerakkumulation im Vergleich zu bestehenden Basislinien erheblich reduziert. KVarN etabliert einen neuen Spitzenwert für die KV-Cache-Quantisierung bei generativen Benchmarks, einschließlich MATH500, AIME24 und HumanEval, mit 2-Bit-Präzision. Eine vLLM-Implementierung der KVarN-Methode ist unter https://github.com/huawei-csl/KVarN verfügbar.

English

Test-time scaling is a powerful approach to obtain better reasoning in large language models, but it becomes memory-bottlenecked during long-horizon decoding, as the KV-cache grows. KV-cache quantization can help improve this, but current methods are evaluated under prefill-like settings and errors behave differently under autoregressive decoding. We show that in the latter regime, quantization errors accumulate across timesteps, driven primarily by incorrect token scales. We introduce KVarN, a calibration-free KV-cache quantizer that applies a Hadamard rotation followed by a dual-scaling variance normalization across both axes of the K and V matrices. We find that this combination fixes outlying token-scale errors and substantially reduces error accumulation over existing baselines. KVarN establishes a new state-of-theart for KV-cache quantization on generative benchmarks, including MATH500, AIME24 and HumanEval, at 2-bit precision. A vLLM implementation of the KVarN method is available at https://github.com/huawei-csl/KVarN