ChatPaper.aiChatPaper

WUSH: LLM 양자화를 위한 준최적 적응형 변환 기법

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

November 30, 2025
저자: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI

초록

저비트 너비 양자화는 대규모 언어 모델을 배포하기 위한 표준 접근법이지만, 극단적으로 큰 소수의 가중치와 활성화 값이 동적 범위를 확장시켜 양자화기의 유효 해상도를 감소시킵니다. 일반적인 완화 방법은 양자화 전에 Hadamard 행렬과 같은 고정된 직교 변환을 적용하여 동적 범위를 줄이는 것입니다. 그러나 이러한 변환은 데이터의 통계를 무시하며, 그 최적성은 현재 명확히 이해되지 않고 있습니다. 본 연구에서는 일반적인 수치 형식에 대해 데이터 무관 표준 양자화기를 사용한 가중치-활성화 결합 양자화를 위한 최적의 선형 블록 단위 변환을 폐쇄형으로 최초로 유도합니다. 구체적으로, 정수 및 부동소수점 형식 모두에 대해 RTN(반올림) 및 AbsMax-스케일링 블록 양자화기를 위한 최적의 적응형(데이터 인식) 변환의 유도 과정을 제시합니다. 그 결과로 도출된 WUSH라 명명한 구성은 Hadamard 백본과 2차 모멘트 기반의 데이터 의존 구성 요소를 결합하여, 약한 가정 하에서 이론적으로 최적임이 입증되고 효율적인 구현을 위한 구조를 유지하는 비직교 변환을 생성합니다. 예비 실험 결과는 우리의 접근법이 일반적인 형식에 대해 Hadamard 변환보다 지속적으로 향상된 성능을 보여줍니다.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
PDF131December 4, 2025