INT vs. FP: Eine umfassende Studie zu feingranularen Niedrig-Bit-Quantisierungsformaten

papers.abstract

Moderne KI-Hardware, wie Nvidias Blackwell-Architektur, setzt zunehmend auf niedrigpräzise Gleitkommaformate (FP), um die weitverbreiteten Aktivierungs-Ausreißer in Large Language Models (LLMs) zu verarbeiten. Trotz dieses Branchentrends fehlte bisher ein einheitlicher Vergleich von FP- und Integer-Quantisierung (INT) über verschiedene Granularitäten hinweg, was Algorithmen- und Hardware-Co-Design ohne klare Leitlinie ließ. Diese Arbeit schließt diese Lücke durch eine systematische Untersuchung der Kompromisse zwischen FP- und INT-Formaten. Wir zeigen einen kritischen Leistungsübergang auf: Während FP bei grobkörniger Quantisierung überlegen ist, ist der Vergleich auf feinkörniger (blockweiser) Ebene nuancenreicher. Unser umfassender Vergleich demonstriert, dass für beliebte 8-Bit-Feinkörnformate (z.B. MX mit Blockgröße 32) MXINT8 seinem FP-Pendant sowohl in algorithmischer Genauigkeit als auch Hardware-Effizienz überlegen ist. Für 4-Bit-Formate hingegen besitzt FP (z.B. MXFP4, NVFP4) oft einen Genauigkeitsvorteil, obwohl wir zeigen, dass NVINT4 NVFP4 übertreffen kann, wenn Ausreißer-reduzierende Techniken wie Hadamard-Rotation angewendet werden. Wir führen zudem eine symmetrische Clipping-Methode ein, die Gradientenverzerrung beim feinkörnigen INT-Training mit niedriger Bitzahl behebt und nahezu verlustfreie Leistung für MXINT8-Training ermöglicht. Diese Ergebnisse stellen die aktuelle Hardware-Entwicklung in Frage, da sie zeigen, dass ein FP-Ansatz nach dem Gießkannenprinzip suboptimal ist, und plädieren dafür, dass feinkörnige INT-Formate, insbesondere MXINT8, eine bessere Balance aus Genauigkeit, Leistung und Effizienz für zukünftige KI-Beschleuniger bieten.

English

Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly embracing low-precision floating-point (FP) formats to handle the pervasive activation outliers in Large Language Models (LLMs). Despite this industry trend, a unified comparison of FP and integer (INT) quantization across varying granularities has been missing, leaving algorithm and hardware co-design without clear guidance. This paper fills that gap by systematically investigating the trade-offs between FP and INT formats. We reveal a critical performance crossover: while FP excels in coarse-grained quantization, the comparison at fine-grained (block-wise) levels is more nuanced. Our comprehensive comparison demonstrates that for popular 8-bit fine-grained formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart in both algorithmic accuracy and hardware efficiency. However, for 4-bit formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like Hadamard rotation are applied. We also introduce a symmetric clipping method that resolves gradient bias in fine-grained low-bit INT training, enabling nearly lossless performance for MXINT8 training. These findings challenge the current hardware trajectory, demonstrating that a one-size-fits-all FP approach is suboptimal and advocating that fine-grained INT formats, particularly MXINT8, offer a better balance of accuracy, power, and efficiency for future AI accelerators.

INT vs. FP: Eine umfassende Studie zu feingranularen Niedrig-Bit-Quantisierungsformaten

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

papers.abstract

Support