ChatPaper.aiChatPaper

WUSH: Nahezu optimale adaptive Transformationen für die Quantisierung von großen Sprachmodellen

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

November 30, 2025
papers.authors: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI

papers.abstract

Die Quantisierung auf niedrige Bitzahlen ist ein Standardverfahren zur Bereitstellung großer Sprachmodelle, jedoch verzerren einige extreme Gewichte und Aktivierungen den dynamischen Bereich und verringern die effektive Auflösung des Quantisierers. Ein gängiger Lösungsansatz ist die Anwendung fester orthogonaler Transformationen, wie beispielsweise Hadamard-Matrizen, vor der Quantisierung, was typischerweise den dynamischen Bereich reduziert. Dennoch ignorieren diese Transformationen die Statistik der Daten, und ihre Optimalität ist bisher nicht verstanden. In dieser Arbeit leiten wir erstmals geschlossene optimale lineare blockweise Transformationen für die gemeinsame Gewichts-Aktivierungs-Quantisierung unter Verwendung standardmäßiger datenfreier Quantisierer für gängige numerische Formate ab. Konkret liefern wir Herleitungen der optimalen adaptiven (datenabhängigen) Transformationen für Rundungs-quantisierer (RTN) und AbsMax-skalierte Blockquantisierer für sowohl Ganzzahl- als auch Gleitkommaformate. Die resultierende Konstruktion, die wir WUSH nennen, kombiniert eine Hadamard-Grundstruktur mit einer datenabhängigen Komponente basierend auf Momenten zweiter Ordnung, was eine nicht-orthogonale Transformation ergibt, die nachweislich optimal unter milden Annahmen ist und strukturiert bleibt für eine effiziente Implementierung. Erste experimentelle Ergebnisse zeigen, dass unser Ansatz konsistent Verbesserungen gegenüber der Hadamard-Transformation für gängige Formate erzielt.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
PDF131December 4, 2025