Quartet : L'entraînement natif en FP4 peut être optimal pour les grands modèles de langage
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
May 20, 2025
Auteurs: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI
Résumé
L'évolution rapide des grands modèles de langage (LLMs) s'est accompagnée d'une augmentation sans précédent des besoins en calcul, les coûts d'entraînement des modèles de pointe doublant tous les quelques mois. L'entraînement direct des modèles en arithmétique de faible précision offre une solution, en améliorant à la fois le débit de calcul et l'efficacité énergétique. Plus précisément, l'architecture récente Blackwell de NVIDIA facilite les opérations en très faible précision, notamment les variantes FP4, promettant des gains substantiels en efficacité. Cependant, les algorithmes actuels pour l'entraînement des LLMs en précision FP4 souffrent d'une dégradation significative de la précision et reposent souvent sur des solutions de secours en précision mixte. Dans cet article, nous étudions systématiquement l'entraînement FP4 supporté par le matériel et introduisons Quartet, une nouvelle approche permettant un entraînement FP4 précis de bout en bout, avec toutes les principales opérations (par exemple dans les couches linéaires) effectuées en faible précision. Grâce à des évaluations approfondies sur des modèles de type Llama, nous révélons une nouvelle loi d'échelle en faible précision qui quantifie les compromis de performance à travers différentes largeurs de bits et nous permet d'identifier une technique d'entraînement en faible précision "quasi-optimale" en termes de précision contre calcul, appelée Quartet. Nous implémentons Quartet en utilisant des noyaux CUDA optimisés pour les GPU NVIDIA Blackwell, et montrons qu'il peut atteindre une précision de pointe pour la précision FP4, en entraînant avec succès des modèles à l'échelle du milliard. Notre méthode démontre que l'entraînement entièrement basé sur FP4 est une alternative compétitive à l'entraînement en précision standard et FP8. Notre code est disponible à l'adresse https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by
unprecedented increases in computational demands, with training costs for
state-of-the-art models doubling every few months. Training models directly in
low-precision arithmetic offers a solution, by improving both computational
throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell
architecture facilitates extremely low-precision operations, specifically FP4
variants, promising substantial efficiency gains. Yet, current algorithms for
training LLMs in FP4 precision face significant accuracy degradation and often
rely on mixed-precision fallbacks. In this paper, we systematically investigate
hardware-supported FP4 training and introduce Quartet, a new approach enabling
accurate, end-to-end FP4 training with all the major computations (in e.g.
linear layers) being performed in low precision. Through extensive evaluations
on Llama-type models, we reveal a new low-precision scaling law that quantifies
performance trade-offs across varying bit-widths and allows us to identify a
"near-optimal" low-precision training technique in terms of
accuracy-vs-computation, called Quartet. We implement Quartet using optimized
CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve
state-of-the-art accuracy for FP4 precision, successfully training
billion-scale models. Our method demonstrates that fully FP4-based training is
a competitive alternative to standard-precision and FP8 training. Our code is
available at https://github.com/IST-DASLab/Quartet.Summary
AI-Generated Summary