WUSH : Transformations adaptatives quasi optimales pour la quantification des LLM
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
November 30, 2025
papers.authors: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI
papers.abstract
La quantification en faible précision est une approche standard pour le déploiement des grands modèles de langage. Cependant, quelques poids et activations extrêmes étendent la plage dynamique et réduisent la résolution effective du quantificateur. Une approche d'atténuation courante consiste à appliquer des transformations orthogonales fixes, telles que les matrices de Hadamard, avant la quantification, ce qui réduit généralement la plage dynamique. Pourtant, ces transformations ignorent les statistiques des données, et leur optimalité n'est actuellement pas comprise. Dans ce travail, nous dérivons, pour la première fois, des transformations linéaires optimales en bloc sous forme fermée pour la quantification conjointe poids-activation en utilisant des quantificateurs standard sans données pour les formats numériques courants. Plus précisément, nous fournissons les dérivées des transformations adaptatives optimales (sensibles aux données) pour les quantificateurs par bloc à arrondi au plus près (RTN) et à mise à l'échelle AbsMax, pour les formats entiers et virgule flottante. La construction résultante, que nous appelons WUSH, combine une structure de base de Hadamard avec une composante dépendante des données basée sur les moments du second ordre, produisant une transformation non orthogonale qui est prouvée optimale sous des hypothèses légères et qui reste structurée pour une implémentation efficace. Les résultats expérimentaux préliminaires montrent que notre approche améliore systématiquement la transformation de Hadamard pour les formats courants.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.