INT vs. FP: Un Estudio Exhaustivo de Formatos de Cuantización de Bajo Bit a Nivel de Grano Fino
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
October 29, 2025
Autores: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
cs.AI
Resumen
El hardware moderno de IA, como la arquitectura Blackwell de Nvidia, está adoptando cada vez más formatos de coma flotante (FP) de baja precisión para manejar los omnipresentes valores atípicos en las activaciones de los Modelos de Lenguaje a Gran Escala (LLM). A pesar de esta tendencia de la industria, ha faltado una comparación unificada de la cuantización en FP y en enteros (INT) a través de diferentes granularidades, dejando el co-diseño de algoritmos y hardware sin una guía clara. Este artículo llena ese vacío al investigar sistemáticamente las compensaciones entre los formatos FP e INT. Revelamos un punto de inflexión crítico en el rendimiento: mientras que FP sobresale en la cuantización de grano grueso, la comparación a niveles de grano fino (a nivel de bloque) es más matizada. Nuestra comparación exhaustiva demuestra que para los formatos populares de 8 bits de grano fino (por ejemplo, MX con tamaño de bloque 32), MXINT8 es superior a su contraparte FP tanto en precisión algorítmica como en eficiencia hardware. Sin embargo, para formatos de 4 bits, FP (por ejemplo, MXFP4, NVFP4) a menudo mantiene una ventaja en precisión, aunque mostramos que NVINT4 puede superar a NVFP4 cuando se aplican técnicas de mitigación de valores atípicos como la rotación de Hadamard. También introducimos un método de recorte simétrico que resuelve el sesgo del gradiente en el entrenamiento INT de grano fino y bajo bit, permitiendo un rendimiento casi sin pérdidas para el entrenamiento de MXINT8. Estos hallazgos desafían la trayectoria actual del hardware, demostrando que un enfoque FP único es subóptimo y defendiendo que los formatos INT de grano fino, particularmente MXINT8, ofrecen un mejor equilibrio entre precisión, potencia y eficiencia para los futuros aceleradores de IA.
English
Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly
embracing low-precision floating-point (FP) formats to handle the pervasive
activation outliers in Large Language Models (LLMs). Despite this industry
trend, a unified comparison of FP and integer (INT) quantization across varying
granularities has been missing, leaving algorithm and hardware co-design
without clear guidance. This paper fills that gap by systematically
investigating the trade-offs between FP and INT formats. We reveal a critical
performance crossover: while FP excels in coarse-grained quantization, the
comparison at fine-grained (block-wise) levels is more nuanced. Our
comprehensive comparison demonstrates that for popular 8-bit fine-grained
formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart
in both algorithmic accuracy and hardware efficiency. However, for 4-bit
formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we
show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like
Hadamard rotation are applied. We also introduce a symmetric clipping method
that resolves gradient bias in fine-grained low-bit INT training, enabling
nearly lossless performance for MXINT8 training. These findings challenge the
current hardware trajectory, demonstrating that a one-size-fits-all FP approach
is suboptimal and advocating that fine-grained INT formats, particularly
MXINT8, offer a better balance of accuracy, power, and efficiency for future AI
accelerators.