Évaluation comparative des optimiseurs pour le pré-entraînement des grands modèles de langage

papers.abstract

Le développement récent des modèles de langage à grande échelle (LLMs) s'est accompagné d'une effervescence d'idées et de méthodes novatrices visant à mieux optimiser la perte des modèles d'apprentissage profond. Les affirmations de ces méthodes sont nombreuses : d'une convergence plus rapide à la suppression de la dépendance à certains hyperparamètres. Cependant, les protocoles expérimentaux variés utilisés pour valider ces affirmations rendent les comparaisons directes entre les méthodes difficiles. Cette étude présente une évaluation complète des techniques d'optimisation récentes dans des scénarios standardisés de pré-entraînement de LLMs, en faisant varier systématiquement la taille du modèle, la taille du lot et la durée de l'entraînement. Grâce à un réglage minutieux de chaque méthode, nous fournissons des conseils aux praticiens sur l'optimiseur le mieux adapté à chaque scénario. Pour les chercheurs, notre travail met en lumière des directions prometteuses pour les futures recherches en optimisation. Enfin, en publiant notre code et en rendant toutes les expériences entièrement reproductibles, nous espérons que nos efforts pourront contribuer au développement et à l'évaluation rigoureuse des méthodes futures.

English

The recent development of Large Language Models (LLMs) has been accompanied by an effervescence of novel ideas and methods to better optimize the loss of deep learning models. Claims from those methods are myriad: from faster convergence to removing reliance on certain hyperparameters. However, the diverse experimental protocols used to validate these claims make direct comparisons between methods challenging. This study presents a comprehensive evaluation of recent optimization techniques across standardized LLM pretraining scenarios, systematically varying model size, batch size, and training duration. Through careful tuning of each method, we provide guidance to practitioners on which optimizer is best suited for each scenario. For researchers, our work highlights promising directions for future optimization research. Finally, by releasing our code and making all experiments fully reproducible, we hope our efforts can help the development and rigorous benchmarking of future methods.

Évaluation comparative des optimiseurs pour le pré-entraînement des grands modèles de langage

Benchmarking Optimizers for Large Language Model Pretraining

papers.abstract

Support