KVarN: cuantización de KV-Cache normalizada por varianza mitiga la acumulación de errores en tareas de razonamiento

Resumen

El escalado en tiempo de prueba es un enfoque poderoso para obtener un mejor razonamiento en modelos de lenguaje grandes, pero se convierte en un cuello de botella de memoria durante la decodificación de horizonte largo, ya que la caché KV crece. La cuantificación de la caché KV puede ayudar a mejorar esto, pero los métodos actuales se evalúan en entornos similares a los de prellenado y los errores se comportan de manera diferente bajo decodificación autorregresiva. Mostramos que, en este último régimen, los errores de cuantificación se acumulan a lo largo de los pasos de tiempo, impulsados principalmente por escalas de tokens incorrectas. Introducimos KVarN, un cuantificador de caché KV sin calibración que aplica una rotación de Hadamard seguida de una normalización de varianza de doble escala a lo largo de ambos ejes de las matrices K y V. Encontramos que esta combinación corrige los errores atípicos en las escalas de tokens y reduce sustancialmente la acumulación de errores en comparación con las líneas base existentes. KVarN establece un nuevo estado del arte para la cuantificación de caché KV en benchmarks generativos, incluyendo MATH500, AIME24 y HumanEval, con precisión de 2 bits. Una implementación vLLM del método KVarN está disponible en https://github.com/huawei-csl/KVarN.

English

Test-time scaling is a powerful approach to obtain better reasoning in large language models, but it becomes memory-bottlenecked during long-horizon decoding, as the KV-cache grows. KV-cache quantization can help improve this, but current methods are evaluated under prefill-like settings and errors behave differently under autoregressive decoding. We show that in the latter regime, quantization errors accumulate across timesteps, driven primarily by incorrect token scales. We introduce KVarN, a calibration-free KV-cache quantizer that applies a Hadamard rotation followed by a dual-scaling variance normalization across both axes of the K and V matrices. We find that this combination fixes outlying token-scale errors and substantially reduces error accumulation over existing baselines. KVarN establishes a new state-of-theart for KV-cache quantization on generative benchmarks, including MATH500, AIME24 and HumanEval, at 2-bit precision. A vLLM implementation of the KVarN method is available at https://github.com/huawei-csl/KVarN