KVarN : Quantification normalisée par variance du cache KV atténue l'accumulation d'erreurs dans les tâches de raisonnement

Résumé

Le scaling au moment du test est une approche puissante pour obtenir un meilleur raisonnement dans les grands modèles de langage, mais il devient limité par la mémoire lors du décodage à long horizon, car le cache KV croît. La quantification du cache KV peut aider à améliorer cela, mais les méthodes actuelles sont évaluées dans des configurations de type pré-remplissage et les erreurs se comportent différemment sous un décodage autorégressif. Nous montrons que dans ce dernier régime, les erreurs de quantification s'accumulent au fil des pas de temps, principalement en raison d'échelles de token incorrectes. Nous introduisons KVarN, un quantifieur de cache KV sans calibration qui applique une rotation de Hadamard suivie d'une normalisation de variance à double échelle sur les deux axes des matrices K et V. Nous constatons que cette combinaison corrige les erreurs d'échelle de token aberrantes et réduit substantiellement l'accumulation d'erreurs par rapport aux bases existantes. KVarN établit un nouvel état de l'art pour la quantification du cache KV sur des benchmarks génératifs, notamment MATH500, AIME24 et HumanEval, à une précision de 2 bits. Une implémentation vLLM de la méthode KVarN est disponible sur https://github.com/huawei-csl/KVarN.

English

Test-time scaling is a powerful approach to obtain better reasoning in large language models, but it becomes memory-bottlenecked during long-horizon decoding, as the KV-cache grows. KV-cache quantization can help improve this, but current methods are evaluated under prefill-like settings and errors behave differently under autoregressive decoding. We show that in the latter regime, quantization errors accumulate across timesteps, driven primarily by incorrect token scales. We introduce KVarN, a calibration-free KV-cache quantizer that applies a Hadamard rotation followed by a dual-scaling variance normalization across both axes of the K and V matrices. We find that this combination fixes outlying token-scale errors and substantially reduces error accumulation over existing baselines. KVarN establishes a new state-of-theart for KV-cache quantization on generative benchmarks, including MATH500, AIME24 and HumanEval, at 2-bit precision. A vLLM implementation of the KVarN method is available at https://github.com/huawei-csl/KVarN