INT対FP:細粒度低ビット量子化フォーマットの包括的研究
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
October 29, 2025
著者: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
cs.AI
要旨
現代のAIハードウェア、例えばNVIDIAのBlackwellアーキテクチャでは、大規模言語モデル(LLM)に遍在する活性化値の外れ値に対処するため、低精度浮動小数点(FP)フォーマットの採用が進んでいる。しかし、この業界トレンドにもかかわらず、様々な粒度レベルでのFPと整数(INT)量子化の統一的な比較はこれまで行われておらず、アルゴリズムとハードウェアの協調設計には明確な指針が欠如していた。本論文はこの空白を埋めるため、FPとINTフォーマットのトレードオフを体系的に調査する。我々は重要な性能のクロスオーバーを明らかにした:FPは粗粒度量子化では優れるが、細粒度(ブロック単位)レベルでの比較はより複雑である。包括的な比較により、人気のある8ビット細粒度フォーマット(例:ブロックサイズ32のMX)では、MXINT8がアルゴリズム的精度とハードウェア効率の両方でFP対応フォーマットを上回ることを実証した。一方、4ビットフォーマットではFP(例:MXFP4、NVFP4)が精度面で優位となる場合が多いが、アダマール回転のような外れ値軽減技術を適用すればNVINT4がNVFP4を凌駕できることも示す。さらに、細粒度低ビットINT学習における勾配バイアスを解決する対称クリッピング手法を提案し、MXINT8学習でほぼロスレスの性能を実現する。これらの知見は現在のハードウェア開発の方向性に疑問を投げかけ、万能的なFPアプローチが最適ではないことを示すとともに、特にMXINT8のような細粒度INTフォーマットが将来のAIアクセラレーターにおいて精度、電力消費、効率性のより優れたバランスを提供することを提唱する。
English
Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly
embracing low-precision floating-point (FP) formats to handle the pervasive
activation outliers in Large Language Models (LLMs). Despite this industry
trend, a unified comparison of FP and integer (INT) quantization across varying
granularities has been missing, leaving algorithm and hardware co-design
without clear guidance. This paper fills that gap by systematically
investigating the trade-offs between FP and INT formats. We reveal a critical
performance crossover: while FP excels in coarse-grained quantization, the
comparison at fine-grained (block-wise) levels is more nuanced. Our
comprehensive comparison demonstrates that for popular 8-bit fine-grained
formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart
in both algorithmic accuracy and hardware efficiency. However, for 4-bit
formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we
show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like
Hadamard rotation are applied. We also introduce a symmetric clipping method
that resolves gradient bias in fine-grained low-bit INT training, enabling
nearly lossless performance for MXINT8 training. These findings challenge the
current hardware trajectory, demonstrating that a one-size-fits-all FP approach
is suboptimal and advocating that fine-grained INT formats, particularly
MXINT8, offer a better balance of accuracy, power, and efficiency for future AI
accelerators.