ChatPaper.aiChatPaper

Preenchendo a Lacuna entre Promessa e Desempenho na Quantização Microscaling FP4

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

September 27, 2025
Autores: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
cs.AI

Resumo

Os recentes formatos de ponto flutuante de 4 bits com microescalonamento acelerado por hardware, como MXFP4 e NVFP4, suportados em GPUs da NVIDIA e AMD, prometem revolucionar a inferência de modelos de linguagem de grande escala (LLMs). No entanto, seus benefícios práticos ainda não foram comprovados. Apresentamos o primeiro estudo abrangente de MXFP4 e NVFP4 para quantização pós-treinamento, revelando lacunas entre suas promessas e o desempenho no mundo real. Nossa análise mostra que os métodos state-of-the-art enfrentam dificuldades com FP4, devido a dois problemas principais: (1) o pequeno tamanho de grupo do NVFP4 neutraliza comprovadamente as técnicas tradicionais de mitigação de outliers; (2) a quantização de escala de potência de dois do MXFP4 degrada severamente a precisão devido ao alto erro induzido. Para preencher essa lacuna, introduzimos o Micro-Rotated-GPTQ (MR-GPTQ), uma variante do clássico algoritmo de quantização GPTQ que adapta o processo de quantização às propriedades únicas do FP4, utilizando transformadas de Hadamard em blocos e otimizações específicas para o formato. Apoiamos nossa proposta com um conjunto de kernels de GPU de alto desempenho que habilitam o formato MR-GPTQ com sobrecarga insignificante, por meio da fusão de rotação nos pesos e do cálculo rápido online das ativações. Isso resulta em acelerações em relação ao FP16 de até 3,6x por camada e 2,2x de ponta a ponta no NVIDIA B200, e de 6x por camada e 4x de ponta a ponta no RTX5090. Nossa extensa avaliação empírica demonstra que o MR-GPTQ iguala ou supera a precisão state-of-the-art, impulsionando significativamente o MXFP4, a ponto de se aproximar do NVFP4. Concluímos que, embora o FP4 não seja uma atualização automática em relação ao INT4, métodos especializados em formatos como o MR-GPTQ podem desbloquear uma nova fronteira de compensações entre precisão e desempenho.
English
The recent hardware-accelerated microscaling 4-bit floating-point formats such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to revolutionize large language model (LLM) inference. Yet, their practical benefits remain unproven. We present the first comprehensive study of MXFP4 and NVFP4 for post-training quantization, revealing gaps between their promise and real-world performance. Our analysis shows that state-of-the-art methods struggle with FP4, due to two key issues: (1) NVFP4's small group size provably neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two scale quantization severely degrades accuracy due to high induced error. To bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the classic GPTQ quantization algorithm that tailors the quantization process to FP4's unique properties, by using block-wise Hadamard transforms and format-specific optimizations. We support our proposal with a set of high-performance GPU kernels that enable the MR-GPTQ format with negligible overhead, by rotation fusion into the weights, and fast online computation of the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and 2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the point where it nears that of NVFP4. We conclude that, while FP4 is not an automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock a new frontier of accuracy-performance trade-offs.
PDF263October 6, 2025