ChatPaper.aiChatPaper

WUSH: Transformadas Adaptativas Casi Óptimas para la Cuantificación de Modelos de Lenguaje Grandes

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

November 30, 2025
Autores: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI

Resumen

La cuantización a baja anchura de bits es un enfoque estándar para implementar modelos de lenguaje grandes; sin embargo, algunos pesos y activaciones extremos amplían el rango dinámico y reducen la resolución efectiva del cuantizador. Un método de mitigación común consiste en aplicar algunas transformadas ortogonales fijas, como matrices de Hadamard, antes de la cuantización, lo que generalmente reduce el rango dinámico. No obstante, estas transformadas ignoran la estadística de los datos y actualmente no se comprende su optimalidad. En este trabajo, derivamos por primera vez transformadas lineales óptimas en forma cerrada, por bloques, para la cuantización conjunta de pesos y activaciones, utilizando cuantizadores estándar libres de datos para formatos numéricos comunes. Específicamente, proporcionamos derivaciones de las transformadas adaptativas (conscientes de los datos) óptimas para cuantizadores por bloques con escala AbsMax y redondeo al más cercano (RTN), tanto para formatos enteros como de coma flotante. La construcción resultante, que denominamos WUSH, combina una estructura base de Hadamard con un componente dependiente de los datos basado en momentos de segundo orden, produciendo una transformada no ortogonal que es demostrablemente óptima bajo supuestos moderados y mantiene una estructura que permite una implementación eficiente. Resultados experimentales preliminares muestran que nuestro método mejora consistentemente la transformada de Hadamard para formatos comunes.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
PDF131December 4, 2025