ChatPaper.aiChatPaper

Cerrando la Brecha entre la Promesa y el Rendimiento en la Cuantización FP4 a Escala Microscópica

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

September 27, 2025
Autores: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
cs.AI

Resumen

Los recientes formatos de punto flotante de 4 bits con escalado microscópico acelerado por hardware, como MXFP4 y NVFP4, compatibles con las GPU de NVIDIA y AMD, prometen revolucionar la inferencia de modelos de lenguaje grandes (LLM, por sus siglas en inglés). Sin embargo, sus beneficios prácticos aún no han sido demostrados. Presentamos el primer estudio exhaustivo de MXFP4 y NVFP4 para la cuantización posterior al entrenamiento, revelando brechas entre su promesa y el rendimiento en el mundo real. Nuestro análisis muestra que los métodos más avanzados enfrentan dificultades con FP4 debido a dos problemas clave: (1) el tamaño reducido de grupo de NVFP4 neutraliza demostrablemente las técnicas tradicionales de mitigación de valores atípicos; (2) la cuantización de escala de potencia de dos de MXFP4 degrada severamente la precisión debido al alto error inducido. Para cerrar esta brecha, introducimos Micro-Rotated-GPTQ (MR-GPTQ), una variante del clásico algoritmo de cuantización GPTQ que adapta el proceso de cuantización a las propiedades únicas de FP4, utilizando transformadas de Hadamard por bloques y optimizaciones específicas del formato. Respaldamos nuestra propuesta con un conjunto de núcleos de GPU de alto rendimiento que permiten el formato MR-GPTQ con un sobrecosto insignificante, mediante la fusión de rotaciones en los pesos y el cálculo rápido en línea de las activaciones. Esto resulta en aceleraciones frente a FP16 de hasta 3.6x por capa y 2.2x de extremo a extremo en la NVIDIA B200, y de 6x por capa y 4x de extremo a extremo en la RTX5090. Nuestra extensa evaluación empírica demuestra que MR-GPTQ iguala o supera la precisión de los métodos más avanzados, mejorando significativamente MXFP4 hasta acercarse a la de NVFP4. Concluimos que, aunque FP4 no es una mejora automática sobre INT4, métodos especializados en el formato como MR-GPTQ pueden desbloquear una nueva frontera en las compensaciones entre precisión y rendimiento.
English
The recent hardware-accelerated microscaling 4-bit floating-point formats such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to revolutionize large language model (LLM) inference. Yet, their practical benefits remain unproven. We present the first comprehensive study of MXFP4 and NVFP4 for post-training quantization, revealing gaps between their promise and real-world performance. Our analysis shows that state-of-the-art methods struggle with FP4, due to two key issues: (1) NVFP4's small group size provably neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two scale quantization severely degrades accuracy due to high induced error. To bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the classic GPTQ quantization algorithm that tailors the quantization process to FP4's unique properties, by using block-wise Hadamard transforms and format-specific optimizations. We support our proposal with a set of high-performance GPU kernels that enable the MR-GPTQ format with negligible overhead, by rotation fusion into the weights, and fast online computation of the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and 2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the point where it nears that of NVFP4. We conclude that, while FP4 is not an automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock a new frontier of accuracy-performance trade-offs.
PDF253October 6, 2025