Quartet: Native FP4-Training kann optimal für große Sprachmodelle sein
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
May 20, 2025
Autoren: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung großer Sprachmodelle (LLMs) wurde von einem beispiellosen Anstieg der Rechenanforderungen begleitet, wobei sich die Trainingskosten für modernste Modelle alle paar Monate verdoppeln. Das direkte Training von Modellen in niedrigpräziser Arithmetik bietet eine Lösung, indem sowohl der Rechendurchsatz als auch die Energieeffizienz verbessert werden. Insbesondere ermöglicht die kürzlich eingeführte Blackwell-Architektur von NVIDIA extrem niedrigpräzise Operationen, speziell FP4-Varianten, die erhebliche Effizienzgewinne versprechen. Dennoch stehen aktuelle Algorithmen für das Training von LLMs in FP4-Präzision vor erheblichen Genauigkeitseinbußen und greifen oft auf gemischtpräzise Fallbacks zurück. In diesem Papier untersuchen wir systematisch das hardwareunterstützte FP4-Training und stellen Quartet vor, einen neuen Ansatz, der ein präzises, end-to-end FP4-Training ermöglicht, bei dem alle wesentlichen Berechnungen (z. B. in linearen Schichten) in niedriger Präzision durchgeführt werden. Durch umfangreiche Evaluierungen an Llama-ähnlichen Modellen enthüllen wir ein neues Skalierungsgesetz für niedrige Präzision, das Leistungskompromisse über verschiedene Bitbreiten quantifiziert und es uns ermöglicht, eine „nahezu optimale“ Technik für das Training in niedriger Präzision in Bezug auf Genauigkeit und Rechenaufwand zu identifizieren, genannt Quartet. Wir implementieren Quartet mit optimierten CUDA-Kerneln, die für NVIDIA Blackwell GPUs maßgeschneidert sind, und zeigen, dass es eine state-of-the-art Genauigkeit für FP4-Präzision erreichen kann, wodurch erfolgreich Milliarden-skalierte Modelle trainiert werden können. Unsere Methode demonstriert, dass vollständig FP4-basiertes Training eine wettbewerbsfähige Alternative zu Standardpräzision und FP8-Training darstellt. Unser Code ist verfügbar unter https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by
unprecedented increases in computational demands, with training costs for
state-of-the-art models doubling every few months. Training models directly in
low-precision arithmetic offers a solution, by improving both computational
throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell
architecture facilitates extremely low-precision operations, specifically FP4
variants, promising substantial efficiency gains. Yet, current algorithms for
training LLMs in FP4 precision face significant accuracy degradation and often
rely on mixed-precision fallbacks. In this paper, we systematically investigate
hardware-supported FP4 training and introduce Quartet, a new approach enabling
accurate, end-to-end FP4 training with all the major computations (in e.g.
linear layers) being performed in low precision. Through extensive evaluations
on Llama-type models, we reveal a new low-precision scaling law that quantifies
performance trade-offs across varying bit-widths and allows us to identify a
"near-optimal" low-precision training technique in terms of
accuracy-vs-computation, called Quartet. We implement Quartet using optimized
CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve
state-of-the-art accuracy for FP4 precision, successfully training
billion-scale models. Our method demonstrates that fully FP4-based training is
a competitive alternative to standard-precision and FP8 training. Our code is
available at https://github.com/IST-DASLab/Quartet.Summary
AI-Generated Summary