Valutazione Comparativa degli Ottimizzatori per il Pretraining di Modelli Linguistici di Grande Scala
Benchmarking Optimizers for Large Language Model Pretraining
September 1, 2025
Autori: Andrei Semenov, Matteo Pagliardini, Martin Jaggi
cs.AI
Abstract
Il recente sviluppo dei Large Language Models (LLM) è stato accompagnato da una fioritura di nuove idee e metodi per ottimizzare meglio la perdita nei modelli di deep learning. Le affermazioni di questi metodi sono numerose: da una convergenza più rapida all'eliminazione della dipendenza da determinati iperparametri. Tuttavia, i diversi protocolli sperimentali utilizzati per validare queste affermazioni rendono difficile un confronto diretto tra i metodi. Questo studio presenta una valutazione completa delle recenti tecniche di ottimizzazione in scenari standardizzati di preaddestramento di LLM, variando sistematicamente la dimensione del modello, la dimensione del batch e la durata dell'addestramento. Attraverso un'attenta regolazione di ciascun metodo, forniamo indicazioni pratiche su quale ottimizzatore sia più adatto per ogni scenario. Per i ricercatori, il nostro lavoro evidenzia direzioni promettenti per la futura ricerca sull'ottimizzazione. Infine, rilasciando il nostro codice e rendendo tutti gli esperimenti completamente riproducibili, speriamo che i nostri sforzi possano contribuire allo sviluppo e al benchmarking rigoroso dei metodi futuri.
English
The recent development of Large Language Models (LLMs) has been accompanied
by an effervescence of novel ideas and methods to better optimize the loss of
deep learning models. Claims from those methods are myriad: from faster
convergence to removing reliance on certain hyperparameters. However, the
diverse experimental protocols used to validate these claims make direct
comparisons between methods challenging. This study presents a comprehensive
evaluation of recent optimization techniques across standardized LLM
pretraining scenarios, systematically varying model size, batch size, and
training duration. Through careful tuning of each method, we provide guidance
to practitioners on which optimizer is best suited for each scenario. For
researchers, our work highlights promising directions for future optimization
research. Finally, by releasing our code and making all experiments fully
reproducible, we hope our efforts can help the development and rigorous
benchmarking of future methods.