Quartet : L'entraînement natif en FP4 peut être optimal pour les grands modèles de langage

papers.abstract

L'évolution rapide des grands modèles de langage (LLMs) s'est accompagnée d'une augmentation sans précédent des besoins en calcul, les coûts d'entraînement des modèles de pointe doublant tous les quelques mois. L'entraînement direct des modèles en arithmétique de faible précision offre une solution, en améliorant à la fois le débit de calcul et l'efficacité énergétique. Plus précisément, l'architecture récente Blackwell de NVIDIA facilite les opérations en très faible précision, notamment les variantes FP4, promettant des gains substantiels en efficacité. Cependant, les algorithmes actuels pour l'entraînement des LLMs en précision FP4 souffrent d'une dégradation significative de la précision et reposent souvent sur des solutions de secours en précision mixte. Dans cet article, nous étudions systématiquement l'entraînement FP4 supporté par le matériel et introduisons Quartet, une nouvelle approche permettant un entraînement FP4 précis de bout en bout, avec toutes les principales opérations (par exemple dans les couches linéaires) effectuées en faible précision. Grâce à des évaluations approfondies sur des modèles de type Llama, nous révélons une nouvelle loi d'échelle en faible précision qui quantifie les compromis de performance à travers différentes largeurs de bits et nous permet d'identifier une technique d'entraînement en faible précision "quasi-optimale" en termes de précision contre calcul, appelée Quartet. Nous implémentons Quartet en utilisant des noyaux CUDA optimisés pour les GPU NVIDIA Blackwell, et montrons qu'il peut atteindre une précision de pointe pour la précision FP4, en entraînant avec succès des modèles à l'échelle du milliard. Notre méthode démontre que l'entraînement entièrement basé sur FP4 est une alternative compétitive à l'entraînement en précision standard et FP8. Notre code est disponible à l'adresse https://github.com/IST-DASLab/Quartet.

English

The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a "near-optimal" low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

Quartet : L'entraînement natif en FP4 peut être optimal pour les grands modèles de langage

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

papers.abstract

Support