ChatPaper.aiChatPaper

WUSH: Bijna-Optimale Adaptieve Transformaties voor Kwantisatie van Grote Taalmodellen

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

November 30, 2025
Auteurs: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI

Samenvatting

Kwantisatie naar lage bitbreedtes is een standaardaanpak voor het implementeren van grote taalmodel(len), maar een paar extreme gewichten en activaties vergroten het dynamisch bereik en verminderen de effectieve resolutie van de kwantiseerder. Een gebruikelijke oplossingsstrategie is het toepassen van vaste orthogonale transformaties, zoals Hadamard-matrices, vóór de kwantisatie, wat doorgaans het dynamisch bereik verkleint. Deze transformaties houden echter geen rekening met de statistieken van de data, en hun optimaliteit is momenteel niet begrepen. In dit werk leiden we voor het eerst gesloten, optimale lineaire blokgewijze transformaties af voor gezamenlijke gewichts-activeringskwantisatie met behulp van standaard data-vrije kwantiseerders voor veelvoorkomende numerieke formaten. Specifiek presenteren we afleidingen van de optimale adaptieve (data-afhankelijke) transformaties voor 'round-to-nearest' (RTN) en AbsMax-geschaalde blokkwantiseerders voor zowel integer- als floating-point-formaten. De resulterende constructie, die we WUSH noemen, combineert een Hadamard-backbone met een data-afhankelijke component gebaseerd op tweede-ordemomenten, wat resulteert in een niet-orthogonale transformatie die onder milde aannames bewezen optimaal is en gestructureerd blijft voor efficiënte implementatie. Eerste experimentele resultaten tonen aan dat onze aanpak consequent verbetert ten opzichte van de Hadamard-transformatie voor gangbare formaten.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
PDF131December 4, 2025