Quartet: Native FP4-training kan optimaal zijn voor grote taalmodellen
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
May 20, 2025
Auteurs: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI
Samenvatting
De snelle vooruitgang van grote taalmodellen (LLMs) gaat gepaard met ongekende toename in rekenkundige eisen, waarbij de trainingskosten voor state-of-the-art modellen elke paar maanden verdubbelen. Het direct trainen van modellen in rekenkunde met lage precisie biedt een oplossing, door zowel de rekenkundige doorvoer als de energie-efficiëntie te verbeteren. Specifiek faciliteert de recente Blackwell-architectuur van NVIDIA extreem lage precisiebewerkingen, met name FP4-varianten, wat aanzienlijke efficiëntiewinsten belooft. Toch kampen huidige algoritmen voor het trainen van LLMs in FP4-precie met aanzienlijke nauwkeurigheidsverliezen en vertrouwen vaak op gemengde precisie fallbacks. In dit artikel onderzoeken we systematisch hardware-ondersteunde FP4-training en introduceren we Quartet, een nieuwe aanpak die nauwkeurige, end-to-end FP4-training mogelijk maakt, waarbij alle belangrijke berekeningen (bijv. in lineaire lagen) in lage precisie worden uitgevoerd. Door uitgebreide evaluaties op Llama-type modellen onthullen we een nieuwe schaalwet voor lage precisie die prestatieafwegingen over verschillende bitbreedtes kwantificeert en ons in staat stelt een "bijna optimale" techniek voor lage precisie training te identificeren in termen van nauwkeurigheid versus rekenkracht, genaamd Quartet. We implementeren Quartet met behulp van geoptimaliseerde CUDA-kernels die zijn afgestemd op NVIDIA Blackwell GPU's, en laten zien dat het state-of-the-art nauwkeurigheid kan bereiken voor FP4-precie, waarbij het succesvol miljard-schaal modellen traint. Onze methode toont aan dat volledig op FP4 gebaseerde training een competitief alternatief is voor standaard precisie en FP8-training. Onze code is beschikbaar op https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by
unprecedented increases in computational demands, with training costs for
state-of-the-art models doubling every few months. Training models directly in
low-precision arithmetic offers a solution, by improving both computational
throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell
architecture facilitates extremely low-precision operations, specifically FP4
variants, promising substantial efficiency gains. Yet, current algorithms for
training LLMs in FP4 precision face significant accuracy degradation and often
rely on mixed-precision fallbacks. In this paper, we systematically investigate
hardware-supported FP4 training and introduce Quartet, a new approach enabling
accurate, end-to-end FP4 training with all the major computations (in e.g.
linear layers) being performed in low precision. Through extensive evaluations
on Llama-type models, we reveal a new low-precision scaling law that quantifies
performance trade-offs across varying bit-widths and allows us to identify a
"near-optimal" low-precision training technique in terms of
accuracy-vs-computation, called Quartet. We implement Quartet using optimized
CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve
state-of-the-art accuracy for FP4 precision, successfully training
billion-scale models. Our method demonstrates that fully FP4-based training is
a competitive alternative to standard-precision and FP8 training. Our code is
available at https://github.com/IST-DASLab/Quartet.