WUSH: LLM量子化のための準最適適応変換
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
November 30, 2025
著者: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI
要旨
低ビット幅への量子化は大規模言語モデルをデプロイする標準的な手法であるが、一部の極端な重みと活性化値がダイナミックレンジを拡大し、量子化器の実効分解能を低下させる問題がある。一般的な対策として、量子化前にアダマール行列などの固定直交変換を適用し、ダイナミックレンジを縮小する手法が用いられる。しかしこれらの変換はデータの統計的特性を考慮しておらず、その最適性は現時点で理論的に解明されていない。本研究では、共通の数値フォーマットにおけるデータ非依存型量子化器を用いた重みと活性化値の同時量子化のために、閉形式で表される最適な線形ブロック変換を世界で初めて導出した。具体的には、整数フォーマットと浮動小数点フォーマット双方における最近接丸め(RTN)およびAbsMaxスケーリングブロック量子化器のための、データ適応型最適変換の導出過程を示す。提案手法であるWUSHは、アダマール変換の骨格に二次モーメントに基づくデータ依存成分を組み合わせ、穏やかな仮定の下で理論的に最適であることが証明される非直交変換を実現する。さらに、効率的な実装が可能な構造を保持している。予備実験では、一般的な数値フォーマットにおいて提案手法がアダマール変換を一貫して上回ることを確認した。
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.