Valutazione Comparativa degli Ottimizzatori per il Pretraining di Modelli Linguistici di Grande Scala

Abstract

Il recente sviluppo dei Large Language Models (LLM) è stato accompagnato da una fioritura di nuove idee e metodi per ottimizzare meglio la perdita nei modelli di deep learning. Le affermazioni di questi metodi sono numerose: da una convergenza più rapida all'eliminazione della dipendenza da determinati iperparametri. Tuttavia, i diversi protocolli sperimentali utilizzati per validare queste affermazioni rendono difficile un confronto diretto tra i metodi. Questo studio presenta una valutazione completa delle recenti tecniche di ottimizzazione in scenari standardizzati di preaddestramento di LLM, variando sistematicamente la dimensione del modello, la dimensione del batch e la durata dell'addestramento. Attraverso un'attenta regolazione di ciascun metodo, forniamo indicazioni pratiche su quale ottimizzatore sia più adatto per ogni scenario. Per i ricercatori, il nostro lavoro evidenzia direzioni promettenti per la futura ricerca sull'ottimizzazione. Infine, rilasciando il nostro codice e rendendo tutti gli esperimenti completamente riproducibili, speriamo che i nostri sforzi possano contribuire allo sviluppo e al benchmarking rigoroso dei metodi futuri.

English

The recent development of Large Language Models (LLMs) has been accompanied by an effervescence of novel ideas and methods to better optimize the loss of deep learning models. Claims from those methods are myriad: from faster convergence to removing reliance on certain hyperparameters. However, the diverse experimental protocols used to validate these claims make direct comparisons between methods challenging. This study presents a comprehensive evaluation of recent optimization techniques across standardized LLM pretraining scenarios, systematically varying model size, batch size, and training duration. Through careful tuning of each method, we provide guidance to practitioners on which optimizer is best suited for each scenario. For researchers, our work highlights promising directions for future optimization research. Finally, by releasing our code and making all experiments fully reproducible, we hope our efforts can help the development and rigorous benchmarking of future methods.

Valutazione Comparativa degli Ottimizzatori per il Pretraining di Modelli Linguistici di Grande Scala

Benchmarking Optimizers for Large Language Model Pretraining

Abstract

Support