Преодоление разрыва между обещаниями и производительностью микромасштабируемой FP4-квантования
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
September 27, 2025
Авторы: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
cs.AI
Аннотация
Недавно появившиеся аппаратно-ускоренные 4-битные форматы с плавающей запятой с микроскейлингом, такие как MXFP4 и NVFP4, поддерживаемые на GPU NVIDIA и AMD, обещают революционизировать вывод крупных языковых моделей (LLM). Однако их практическая польза остается недоказанной. Мы представляем первое всестороннее исследование MXFP4 и NVFP4 для посттренировочного квантования, выявляя разрыв между их обещаниями и реальной производительностью. Наш анализ показывает, что современные методы сталкиваются с трудностями при работе с FP4 из-за двух ключевых проблем: (1) небольшой размер группы в NVFP4 нейтрализует традиционные методы смягчения выбросов; (2) квантование с масштабированием по степеням двойки в MXFP4 значительно снижает точность из-за высокой индуцированной ошибки. Чтобы устранить этот разрыв, мы представляем Micro-Rotated-GPTQ (MR-GPTQ), вариант классического алгоритма квантования GPTQ, который адаптирует процесс квантования к уникальным свойствам FP4, используя блочные преобразования Адамара и оптимизации, специфичные для формата. Мы поддерживаем наше предложение набором высокопроизводительных GPU-ядер, которые обеспечивают поддержку формата MR-GPTQ с минимальными накладными расходами, благодаря слиянию вращений в веса и быстрому онлайн-вычислению активаций. Это приводит к ускорению по сравнению с FP16 до 3,6x на уровне слоев и 2,2x end-to-end на NVIDIA B200, а также до 6x на уровне слоев и 4x end-to-end на RTX5090. Наше обширное эмпирическое исследование демонстрирует, что MR-GPTQ соответствует или превосходит современные методы по точности, значительно улучшая MXFP4 до уровня, близкого к NVFP4. Мы заключаем, что, хотя FP4 не является автоматическим улучшением по сравнению с INT4, специализированные методы, такие как MR-GPTQ, могут открыть новые горизонты в балансе между точностью и производительностью.
English
The recent hardware-accelerated microscaling 4-bit floating-point formats
such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to
revolutionize large language model (LLM) inference. Yet, their practical
benefits remain unproven. We present the first comprehensive study of MXFP4 and
NVFP4 for post-training quantization, revealing gaps between their promise and
real-world performance. Our analysis shows that state-of-the-art methods
struggle with FP4, due to two key issues: (1) NVFP4's small group size provably
neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two
scale quantization severely degrades accuracy due to high induced error. To
bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the
classic GPTQ quantization algorithm that tailors the quantization process to
FP4's unique properties, by using block-wise Hadamard transforms and
format-specific optimizations. We support our proposal with a set of
high-performance GPU kernels that enable the MR-GPTQ format with negligible
overhead, by rotation fusion into the weights, and fast online computation of
the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and
2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on
RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches
or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the
point where it nears that of NVFP4. We conclude that, while FP4 is not an
automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock
a new frontier of accuracy-performance trade-offs.