ChatPaper.aiChatPaper

WUSH: Почти оптимальные адаптивные преобразования для квантования больших языковых моделей

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

November 30, 2025
Авторы: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh
cs.AI

Аннотация

Квантование до низкой битовой ширины является стандартным подходом для развертывания больших языковых моделей, однако небольшое количество экстремальных значений весов и активаций растягивает динамический диапазон и снижает эффективное разрешение квантователя. Распространенный метод смягчения проблемы заключается в применении некоторых фиксированных ортогональных преобразований, таких как матрицы Адамара, перед квантованием, что обычно уменьшает динамический диапазон. Тем не менее, эти преобразования игнорируют статистику данных, и их оптимальность в настоящее время не понята. В данной работе мы впервые выводим замкнутые оптимальные линейные блочные преобразования для совместного квантования весов и активаций с использованием стандартных квантователей без данных для распространенных числовых форматов. В частности, мы предоставляем выводы оптимальных адаптивных (учитывающих данные) преобразований для квантователей с округлением до ближайшего (RTN) и с масштабированием по абсолютному максимуму блока для целочисленных и форматов с плавающей запятой. Получившаяся конструкция, которую мы называем WUSH, сочетает основу из преобразования Адамара с компонентом, зависящим от данных и основанным на моментах второго порядка, что дает неортогональное преобразование, которое является доказуемо оптимальным при слабых предположениях и сохраняет структурированность для эффективной реализации. Предварительные экспериментальные результаты показывают, что наш подход последовательно превосходит преобразование Адамара для распространенных форматов.
English
Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
PDF131December 4, 2025