INT vs. FP: Um Estudo Abrangente sobre Formatos de Quantização de Baixos Bits em Nível Fino
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
October 29, 2025
Autores: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
cs.AI
Resumo
O hardware moderno de IA, como a arquitetura Blackwell da Nvidia, está a adotar cada vez mais formatos de vírgula flutuante (FP) de baixa precisão para lidar com os valores ativacionais extremos (outliers) omnipresentes nos Grandes Modelos de Linguagem (LLMs). Apesar desta tendência da indústria, faltava uma comparação unificada da quantização em FP e inteiro (INT) através de diferentes granularidades, deixando o codesenho de algoritmos e hardware sem orientação clara. Este artigo preenche essa lacuna ao investigar sistematicamente os compromissos entre os formatos FP e INT. Revelamos um ponto de viragem crítico no desempenho: embora o FP se destaque na quantização de granularidade grossa, a comparação a níveis de granularidade fina (ao nível do bloco) é mais subtil. A nossa comparação abrangente demonstra que, para os formatos de granularidade fina de 8 bits populares (por exemplo, MX com tamanho de bloco 32), o MXINT8 é superior ao seu homólogo FP, tanto na precisão algorítmica como na eficiência de hardware. No entanto, para formatos de 4 bits, o FP (por exemplo, MXFP4, NVFP4) mantém frequentemente uma vantagem em precisão, embora mostremos que o NVINT4 pode superar o NVFP4 quando são aplicadas técnicas de mitigação de *outliers* como a rotação de Hadamard. Também introduzimos um método de corte simétrico que resolve o enviesamento do gradiente no treino INT de baixos bits e granularidade fina, permitindo um desempenho quase sem perdas para o treino de MXINT8. Estas descobertas desafiam a trajetória atual do hardware, demonstrando que uma abordagem universal de FP é subótima e defendendo que os formatos INT de granularidade fina, particularmente o MXINT8, oferecem um melhor equilíbrio entre precisão, potência e eficiência para os futuros aceleradores de IA.
English
Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly
embracing low-precision floating-point (FP) formats to handle the pervasive
activation outliers in Large Language Models (LLMs). Despite this industry
trend, a unified comparison of FP and integer (INT) quantization across varying
granularities has been missing, leaving algorithm and hardware co-design
without clear guidance. This paper fills that gap by systematically
investigating the trade-offs between FP and INT formats. We reveal a critical
performance crossover: while FP excels in coarse-grained quantization, the
comparison at fine-grained (block-wise) levels is more nuanced. Our
comprehensive comparison demonstrates that for popular 8-bit fine-grained
formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart
in both algorithmic accuracy and hardware efficiency. However, for 4-bit
formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we
show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like
Hadamard rotation are applied. We also introduce a symmetric clipping method
that resolves gradient bias in fine-grained low-bit INT training, enabling
nearly lossless performance for MXINT8 training. These findings challenge the
current hardware trajectory, demonstrating that a one-size-fits-all FP approach
is suboptimal and advocating that fine-grained INT formats, particularly
MXINT8, offer a better balance of accuracy, power, and efficiency for future AI
accelerators.