INT против FP: всестороннее исследование форматов тонкой низкоразрядной квантизации
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
October 29, 2025
Авторы: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
cs.AI
Аннотация
Современное аппаратное обеспечение для ИИ, такое как архитектура Blackwell от Nvidia, всё чаще обращается к форматам чисел с плавающей запятой (FP) пониженной точности для обработки повсеместно встречающихся выбросов в активациях больших языковых моделей (LLM). Несмотря на эту отраслевую тенденцию, до сих пор отсутствовало единое сравнение квантования в форматах FP и целочисленном (INT) для различной гранулярности, что оставляло совместное проектирование алгоритмов и оборудования без чётких ориентиров. Данная статья заполняет этот пробел, систематически исследуя компромиссы между форматами FP и INT. Мы выявляем критический перелом в производительности: хотя FP превосходит INT при грубозернистом квантовании, сравнение на мелкозернистом (блочном) уровне является более nuanced. Наше всестороннее сравнение демонстрирует, что для популярных 8-битных мелкозернистых форматов (например, MX с размером блока 32) MXINT8 превосходит свой аналог FP как по алгоритмической точности, так и по аппаратной эффективности. Однако для 4-битных форматов FP (например, MXFP4, NVFP4) часто сохраняет преимущество в точности, хотя мы показываем, что NVINT4 может превзойти NVFP4 при применении методов подавления выбросов, таких как преобразование Адамара. Мы также представляем метод симметричного ограничения (clipping), который устраняет смещение градиента при мелкозернистом INT-обучении с низкой битностью, обеспечивая практически безусловную производительность для обучения MXINT8. Эти результаты ставят под сомнение текущий вектор развития аппаратного обеспечения, демонстрируя, что универсальный подход в пользу FP является неоптимальным, и доказывая, что мелкозернистые INT-форматы, в частности MXINT8, предлагают лучший баланс точности, энергопотребления и эффективности для будущих AI-ускорителей.
English
Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly
embracing low-precision floating-point (FP) formats to handle the pervasive
activation outliers in Large Language Models (LLMs). Despite this industry
trend, a unified comparison of FP and integer (INT) quantization across varying
granularities has been missing, leaving algorithm and hardware co-design
without clear guidance. This paper fills that gap by systematically
investigating the trade-offs between FP and INT formats. We reveal a critical
performance crossover: while FP excels in coarse-grained quantization, the
comparison at fine-grained (block-wise) levels is more nuanced. Our
comprehensive comparison demonstrates that for popular 8-bit fine-grained
formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart
in both algorithmic accuracy and hardware efficiency. However, for 4-bit
formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we
show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like
Hadamard rotation are applied. We also introduce a symmetric clipping method
that resolves gradient bias in fine-grained low-bit INT training, enabling
nearly lossless performance for MXINT8 training. These findings challenge the
current hardware trajectory, demonstrating that a one-size-fits-all FP approach
is suboptimal and advocating that fine-grained INT formats, particularly
MXINT8, offer a better balance of accuracy, power, and efficiency for future AI
accelerators.