Überbrückung der Lücke zwischen Versprechen und Leistung bei der Mikroskalierung der FP4-Quantisierung
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
September 27, 2025
papers.authors: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
cs.AI
papers.abstract
Die kürzlich eingeführten hardwarebeschleunigten Mikroskalierungsformate für 4-Bit-Gleitkommazahlen wie MXFP4 und NVFP4, die auf NVIDIA- und AMD-GPUs unterstützt werden, versprechen, das Inferenzverfahren für große Sprachmodelle (LLMs) zu revolutionieren. Dennoch bleiben ihre praktischen Vorteile bisher unbewiesen. Wir präsentieren die erste umfassende Studie zu MXFP4 und NVFP4 für die Post-Training-Quantisierung, die Lücken zwischen ihren Versprechungen und der tatsächlichen Leistung aufzeigt. Unsere Analyse zeigt, dass state-of-the-art-Methoden mit FP4 aufgrund von zwei zentralen Problemen kämpfen: (1) Die kleine Gruppengröße von NVFP4 macht traditionelle Techniken zur Ausreißerminderung nachweislich unwirksam; (2) Die Potenz-von-zwei-Skalierungsquantisierung von MXFP4 führt aufgrund hoher induzierter Fehler zu einer erheblichen Genauigkeitsverschlechterung. Um diese Lücke zu schließen, führen wir Micro-Rotated-GPTQ (MR-GPTQ) ein, eine Variante des klassischen GPTQ-Quantisierungsalgorithmus, die den Quantisierungsprozess an die einzigartigen Eigenschaften von FP4 anpasst, indem blockweise Hadamard-Transformationen und format-spezifische Optimierungen verwendet werden. Wir untermauern unseren Vorschlag mit einer Reihe von hochleistungsfähigen GPU-Kerneln, die das MR-GPTQ-Format mit vernachlässigbarem Overhead ermöglichen, indem die Rotation in die Gewichte integriert und die Aktivierungen schnell online berechnet werden. Dies führt zu Beschleunigungen gegenüber FP16 von bis zu 3,6x auf Schichtebene und 2,2x end-to-end auf der NVIDIA B200 sowie 6x auf Schichtebene und 4x end-to-end auf der RTX5090. Unsere umfangreiche empirische Auswertung zeigt, dass MR-GPTQ die state-of-the-art-Genauigkeit erreicht oder übertrifft und MXFP4 erheblich verbessert, sodass es nahe an die Leistung von NVFP4 heranreicht. Wir kommen zu dem Schluss, dass FP4 zwar keine automatische Verbesserung gegenüber INT4 darstellt, aber format-spezialisierte Methoden wie MR-GPTQ eine neue Grenze für Genauigkeits-Leistungs-Kompromisse erschließen können.
English
The recent hardware-accelerated microscaling 4-bit floating-point formats
such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to
revolutionize large language model (LLM) inference. Yet, their practical
benefits remain unproven. We present the first comprehensive study of MXFP4 and
NVFP4 for post-training quantization, revealing gaps between their promise and
real-world performance. Our analysis shows that state-of-the-art methods
struggle with FP4, due to two key issues: (1) NVFP4's small group size provably
neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two
scale quantization severely degrades accuracy due to high induced error. To
bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the
classic GPTQ quantization algorithm that tailors the quantization process to
FP4's unique properties, by using block-wise Hadamard transforms and
format-specific optimizations. We support our proposal with a set of
high-performance GPU kernels that enable the MR-GPTQ format with negligible
overhead, by rotation fusion into the weights, and fast online computation of
the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and
2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on
RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches
or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the
point where it nears that of NVFP4. We conclude that, while FP4 is not an
automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock
a new frontier of accuracy-performance trade-offs.