ChatPaper.aiChatPaper

Combler l'écart entre la promesse et la performance pour la quantification FP4 en microscaling

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

September 27, 2025
papers.authors: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
cs.AI

papers.abstract

Les formats récents de nombres flottants 4 bits à micro-échelle accélérés par matériel, tels que MXFP4 et NVFP4, pris en charge par les GPU NVIDIA et AMD, promettent de révolutionner l'inférence des grands modèles de langage (LLM). Cependant, leurs avantages pratiques restent à prouver. Nous présentons la première étude exhaustive de MXFP4 et NVFP4 pour la quantification post-entraînement, révélant des écarts entre leurs promesses et leurs performances réelles. Notre analyse montre que les méthodes de pointe peinent avec FP4 en raison de deux problèmes clés : (1) la petite taille de groupe de NVFP4 neutralise de manière prouvée les techniques traditionnelles de mitigation des valeurs aberrantes ; (2) la quantification à échelle de puissance de deux de MXFP4 dégrade sévèrement la précision en raison d'une erreur induite élevée. Pour combler cet écart, nous introduisons Micro-Rotated-GPTQ (MR-GPTQ), une variante de l'algorithme de quantification classique GPTQ qui adapte le processus de quantification aux propriétés uniques de FP4, en utilisant des transformations de Hadamard par blocs et des optimisations spécifiques au format. Nous soutenons notre proposition avec un ensemble de noyaux GPU haute performance qui permettent le format MR-GPTQ avec un surcoût négligeable, par fusion de rotation dans les poids et calcul rapide en ligne des activations. Cela conduit à des accélérations par rapport à FP16 allant jusqu'à 3,6x par couche et 2,2x de bout en bout sur NVIDIA B200, et de 6x par couche et 4x de bout en bout sur RTX5090. Notre évaluation empirique approfondie démontre que MR-GPTQ égal ou dépasse la précision de l'état de l'art, améliorant significativement MXFP4 au point où il approche celle de NVFP4. Nous concluons que, bien que FP4 ne soit pas une mise à niveau automatique par rapport à INT4, des méthodes spécialisées comme MR-GPTQ peuvent ouvrir une nouvelle frontière de compromis précision-performance.
English
The recent hardware-accelerated microscaling 4-bit floating-point formats such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to revolutionize large language model (LLM) inference. Yet, their practical benefits remain unproven. We present the first comprehensive study of MXFP4 and NVFP4 for post-training quantization, revealing gaps between their promise and real-world performance. Our analysis shows that state-of-the-art methods struggle with FP4, due to two key issues: (1) NVFP4's small group size provably neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two scale quantization severely degrades accuracy due to high induced error. To bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the classic GPTQ quantization algorithm that tailors the quantization process to FP4's unique properties, by using block-wise Hadamard transforms and format-specific optimizations. We support our proposal with a set of high-performance GPU kernels that enable the MR-GPTQ format with negligible overhead, by rotation fusion into the weights, and fast online computation of the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and 2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the point where it nears that of NVFP4. We conclude that, while FP4 is not an automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock a new frontier of accuracy-performance trade-offs.
PDF253October 6, 2025