Évaluation comparative des optimiseurs pour le pré-entraînement des grands modèles de langage
Benchmarking Optimizers for Large Language Model Pretraining
September 1, 2025
papers.authors: Andrei Semenov, Matteo Pagliardini, Martin Jaggi
cs.AI
papers.abstract
Le développement récent des modèles de langage à grande échelle (LLMs) s'est accompagné d'une effervescence d'idées et de méthodes novatrices visant à mieux optimiser la perte des modèles d'apprentissage profond. Les affirmations de ces méthodes sont nombreuses : d'une convergence plus rapide à la suppression de la dépendance à certains hyperparamètres. Cependant, les protocoles expérimentaux variés utilisés pour valider ces affirmations rendent les comparaisons directes entre les méthodes difficiles. Cette étude présente une évaluation complète des techniques d'optimisation récentes dans des scénarios standardisés de pré-entraînement de LLMs, en faisant varier systématiquement la taille du modèle, la taille du lot et la durée de l'entraînement. Grâce à un réglage minutieux de chaque méthode, nous fournissons des conseils aux praticiens sur l'optimiseur le mieux adapté à chaque scénario. Pour les chercheurs, notre travail met en lumière des directions prometteuses pour les futures recherches en optimisation. Enfin, en publiant notre code et en rendant toutes les expériences entièrement reproductibles, nous espérons que nos efforts pourront contribuer au développement et à l'évaluation rigoureuse des méthodes futures.
English
The recent development of Large Language Models (LLMs) has been accompanied
by an effervescence of novel ideas and methods to better optimize the loss of
deep learning models. Claims from those methods are myriad: from faster
convergence to removing reliance on certain hyperparameters. However, the
diverse experimental protocols used to validate these claims make direct
comparisons between methods challenging. This study presents a comprehensive
evaluation of recent optimization techniques across standardized LLM
pretraining scenarios, systematically varying model size, batch size, and
training duration. Through careful tuning of each method, we provide guidance
to practitioners on which optimizer is best suited for each scenario. For
researchers, our work highlights promising directions for future optimization
research. Finally, by releasing our code and making all experiments fully
reproducible, we hope our efforts can help the development and rigorous
benchmarking of future methods.