KVarN: Quantização de KV-Cache Normalizada pela Variância Mitiga o Acúmulo de Erros em Tarefas de Raciocínio

Resumo

O escalonamento em tempo de teste é uma abordagem poderosa para obter melhor raciocínio em grandes modelos de linguagem, mas torna-se limitado por gargalos de memória durante a decodificação de longo horizonte, à medida que o cache KV cresce. A quantização do cache KV pode ajudar a melhorar esse aspecto, porém os métodos atuais são avaliados em configurações do tipo prefill e os erros se comportam de forma diferente sob decodificação autoregressiva. Mostramos que, nesse último regime, os erros de quantização se acumulam ao longo das etapas temporais, impulsionados principalmente por escalas de token incorretas. Apresentamos o KVarN, um quantizador de cache KV sem calibração que aplica uma rotação de Hadamard seguida de uma normalização de variância com dupla escala em ambos os eixos das matrizes K e V. Descobrimos que essa combinação corrige erros de escala de token discrepantes e reduz substancialmente o acúmulo de erros em relação às referências existentes. O KVarN estabelece um novo estado da arte para quantização de cache KV em benchmarks generativos, incluindo MATH500, AIME24 e HumanEval, com precisão de 2 bits. Uma implementação vLLM do método KVarN está disponível em https://github.com/huawei-csl/KVarN.

English

Test-time scaling is a powerful approach to obtain better reasoning in large language models, but it becomes memory-bottlenecked during long-horizon decoding, as the KV-cache grows. KV-cache quantization can help improve this, but current methods are evaluated under prefill-like settings and errors behave differently under autoregressive decoding. We show that in the latter regime, quantization errors accumulate across timesteps, driven primarily by incorrect token scales. We introduce KVarN, a calibration-free KV-cache quantizer that applies a Hadamard rotation followed by a dual-scaling variance normalization across both axes of the K and V matrices. We find that this combination fixes outlying token-scale errors and substantially reduces error accumulation over existing baselines. KVarN establishes a new state-of-theart for KV-cache quantization on generative benchmarks, including MATH500, AIME24 and HumanEval, at 2-bit precision. A vLLM implementation of the KVarN method is available at https://github.com/huawei-csl/KVarN