Colmare il Divario tra Promessa e Prestazioni per la Quantizzazione Microscaling FP4

Abstract

I recenti formati a virgola mobile a 4 bit con accelerazione hardware, come MXFP4 e NVFP4, supportati su GPU NVIDIA e AMD, promettono di rivoluzionare l'inferenza dei grandi modelli linguistici (LLM). Tuttavia, i loro benefici pratici rimangono ancora da dimostrare. Presentiamo il primo studio completo su MXFP4 e NVFP4 per la quantizzazione post-addestramento, rivelando discrepanze tra le loro promesse e le prestazioni nel mondo reale. La nostra analisi mostra che i metodi all'avanguardia faticano a gestire FP4, a causa di due problemi chiave: (1) la dimensione ridotta del gruppo di NVFP4 neutralizza tecniche tradizionali di mitigazione degli outlier; (2) la quantizzazione su scala potenza di due di MXFP4 degrada gravemente l'accuratezza a causa dell'elevato errore indotto. Per colmare questa lacuna, introduciamo Micro-Rotated-GPTQ (MR-GPTQ), una variante del classico algoritmo di quantizzazione GPTQ che adatta il processo di quantizzazione alle proprietà uniche di FP4, utilizzando trasformate di Hadamard a blocchi e ottimizzazioni specifiche per il formato. Supportiamo la nostra proposta con un set di kernel GPU ad alte prestazioni che abilitano il formato MR-GPTQ con un overhead trascurabile, grazie alla fusione della rotazione nei pesi e al calcolo rapido online delle attivazioni. Ciò porta a velocizzazioni rispetto a FP16 fino a 3,6x a livello di layer e 2,2x end-to-end su NVIDIA B200, e fino a 6x a livello di layer e 4x end-to-end su RTX5090. La nostra ampia valutazione empirica dimostra che MR-GPTQ eguaglia o supera l'accuratezza all'avanguardia, migliorando significativamente MXFP4 fino a farlo avvicinare a quella di NVFP4. Concludiamo che, sebbene FP4 non sia un aggiornamento automatico rispetto a INT4, metodi specializzati per il formato come MR-GPTQ possono aprire una nuova frontiera nei compromessi tra accuratezza e prestazioni.

English

The recent hardware-accelerated microscaling 4-bit floating-point formats such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to revolutionize large language model (LLM) inference. Yet, their practical benefits remain unproven. We present the first comprehensive study of MXFP4 and NVFP4 for post-training quantization, revealing gaps between their promise and real-world performance. Our analysis shows that state-of-the-art methods struggle with FP4, due to two key issues: (1) NVFP4's small group size provably neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two scale quantization severely degrades accuracy due to high induced error. To bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the classic GPTQ quantization algorithm that tailors the quantization process to FP4's unique properties, by using block-wise Hadamard transforms and format-specific optimizations. We support our proposal with a set of high-performance GPU kernels that enable the MR-GPTQ format with negligible overhead, by rotation fusion into the weights, and fast online computation of the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and 2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the point where it nears that of NVFP4. We conclude that, while FP4 is not an automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock a new frontier of accuracy-performance trade-offs.