Optimiseurs de Prétraining Fantastiques et Où les Trouver

papers.abstract

AdamW a longtemps été l'optimiseur dominant dans le pré-entraînement des modèles de langage, malgré de nombreuses affirmations selon lesquelles des optimiseurs alternatifs offrent une accélération de 1,4 à 2 fois. Nous postulons que deux lacunes méthodologiques ont obscurci les comparaisons équitables et entravé l'adoption pratique : (i) un réglage inégal des hyperparamètres et (ii) des configurations d'évaluation limitées ou trompeuses. Pour résoudre ces deux problèmes, nous menons une étude systématique de dix optimiseurs d'apprentissage profond sur quatre échelles de modèles (0,1 à 1,2 milliard de paramètres) et des ratios données-modèles (1 à 8 fois l'optimum de Chinchilla). Nous constatons que des comparaisons équitables et informatives nécessitent un réglage rigoureux des hyperparamètres et des évaluations sur une gamme d'échelles de modèles et de ratios données-modèles, effectués à la fin de l'entraînement. Premièrement, les hyperparamètres optimaux pour un optimiseur peuvent être sous-optimaux pour un autre, rendant le transfert aveugle d'hyperparamètres injuste. Deuxièmement, l'accélération réelle de nombreux optimiseurs proposés par rapport aux bases de référence bien réglées est inférieure à celle annoncée et diminue avec la taille du modèle pour atteindre seulement 1,1 fois pour les modèles de 1,2 milliard de paramètres. Troisièmement, comparer des points de contrôle intermédiaires avant d'atteindre les budgets d'entraînement cibles peut être trompeur, car les classements entre deux optimiseurs peuvent s'inverser pendant l'entraînement en raison de la décroissance du taux d'apprentissage. Grâce à notre enquête approfondie, nous constatons que tous les optimiseurs les plus rapides, tels que Muon et Soap, utilisent des matrices comme préconditionneurs — multipliant les gradients par des matrices plutôt que par des scalaires élément par élément. Cependant, l'accélération des optimiseurs basés sur des matrices est inversement proportionnelle à l'échelle du modèle, diminuant de 1,4 fois par rapport à AdamW pour les modèles de 0,1 milliard de paramètres à seulement 1,1 fois pour les modèles de 1,2 milliard de paramètres.

English

AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Optimiseurs de Prétraining Fantastiques et Où les Trouver

Fantastic Pretraining Optimizers and Where to Find Them

papers.abstract

Support