ChatPaper.aiChatPaper

INT vs FP : Une étude approfondie des formats de quantification basse précision à granularité fine

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

October 29, 2025
papers.authors: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
cs.AI

papers.abstract

Le matériel d'IA moderne, tel que l'architecture Blackwell de Nvidia, adopte de plus en plus des formats de nombres flottants (FP) de faible précision pour gérer les valeurs aberrantes omniprésentes dans les modèles de langage de grande taille (LLM). Malgré cette tendance industrielle, une comparaison unifiée entre la quantification FP et entière (INT) à différentes granularités faisait défaut, privant la co-conception algorithme-matériel de lignes directrices claires. Cet article comble cette lacune en étudiant systématiquement les compromis entre les formats FP et INT. Nous révélons un croisement critique des performances : si FP excelle dans la quantification à granularité grossière, la comparaison aux niveaux à granularité fine (par blocs) est plus nuancée. Notre comparaison exhaustive démontre que pour les formats à granularité fine 8 bits populaires (par exemple MX avec une taille de bloc de 32), MXINT8 est supérieur à son homologue FP en précision algorithmique et en efficacité matérielle. Cependant, pour les formats 4 bits, FP (par exemple MXFP4, NVFP4) conserve souvent un avantage en précision, bien que nous montrions que NVINT4 peut surpasser NVFP4 lorsque des techniques d'atténuation des valeurs aberrantes comme la rotation de Hadamard sont appliquées. Nous introduisons également une méthode de clipping symétrique qui résout le biais du gradient dans l'entraînement INT à faible bit et granularité fine, permettant des performances quasi sans perte pour l'entraînement MXINT8. Ces résultats remettent en question la trajectoire matérielle actuelle, démontrant qu'une approche FP universelle est sous-optimale et préconisant que les formats INT à granularité fine, particulièrement MXINT8, offrent un meilleur équilibre entre précision, puissance et efficacité pour les accélérateurs d'IA futurs.
English
Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly embracing low-precision floating-point (FP) formats to handle the pervasive activation outliers in Large Language Models (LLMs). Despite this industry trend, a unified comparison of FP and integer (INT) quantization across varying granularities has been missing, leaving algorithm and hardware co-design without clear guidance. This paper fills that gap by systematically investigating the trade-offs between FP and INT formats. We reveal a critical performance crossover: while FP excels in coarse-grained quantization, the comparison at fine-grained (block-wise) levels is more nuanced. Our comprehensive comparison demonstrates that for popular 8-bit fine-grained formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart in both algorithmic accuracy and hardware efficiency. However, for 4-bit formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like Hadamard rotation are applied. We also introduce a symmetric clipping method that resolves gradient bias in fine-grained low-bit INT training, enabling nearly lossless performance for MXINT8 training. These findings challenge the current hardware trajectory, demonstrating that a one-size-fits-all FP approach is suboptimal and advocating that fine-grained INT formats, particularly MXINT8, offer a better balance of accuracy, power, and efficiency for future AI accelerators.
PDF756December 2, 2025