Power Scheduler: Un Pianificatore del Tasso di Apprendimento Indipendente dalla Dimensione del Batch e dal Numero di Token

Abstract

Trovare il tasso di apprendimento ottimale per il pretraining dei modelli linguistici è un compito impegnativo. Ciò non solo perché esiste una complessa correlazione tra tasso di apprendimento, dimensione del batch, numero di token di addestramento, dimensione del modello e altri iperparametri, ma anche perché è estremamente costoso eseguire una ricerca degli iperparametri per modelli linguistici di grandi dimensioni con miliardi o trilioni di parametri. Studi recenti propongono di utilizzare modelli proxy di piccole dimensioni e un corpus ridotto per eseguire ricerche degli iperparametri e trasporre i parametri ottimali a modelli e corpus di grandi dimensioni. Sebbene la trasferibilità zero-shot sia stata dimostrata teoricamente ed empiricamente per iperparametri legati alla dimensione del modello, come profondità e ampiezza, la trasferibilità zero-shot da un corpus piccolo a uno grande è ancora poco esplorata. In questo articolo, studiamo la correlazione tra tasso di apprendimento ottimale, dimensione del batch e numero di token di addestramento per il recentemente proposto scheduler WSD. Dopo migliaia di piccoli esperimenti, abbiamo trovato una relazione di legge di potenza tra le variabili e ne abbiamo dimostrato la trasferibilità attraverso diverse dimensioni del modello. Sulla base di questa osservazione, proponiamo un nuovo scheduler per il tasso di apprendimento, chiamato Power scheduler, che è agnostico rispetto al numero di token di addestramento e alla dimensione del batch. L'esperimento mostra che combinare il Power scheduler con la Maximum Update Parameterization (muP) può ottenere costantemente prestazioni impressionanti con un unico set di iperparametri, indipendentemente dal numero di token di addestramento, dalla dimensione del batch, dalla dimensione del modello e persino dall'architettura del modello. I nostri modelli densi e MoE da 3B addestrati con il Power scheduler raggiungono prestazioni comparabili con i migliori modelli linguistici di piccole dimensioni. Abbiamo reso open-source questi modelli pretrainati all'indirizzo https://ibm.biz/BdKhLa.

English

Finding the optimal learning rate for language model pretraining is a challenging task. This is not only because there is a complicated correlation between learning rate, batch size, number of training tokens, model size, and other hyperparameters but also because it is prohibitively expensive to perform a hyperparameter search for large language models with Billions or Trillions of parameters. Recent studies propose using small proxy models and small corpus to perform hyperparameter searches and transposing the optimal parameters to large models and large corpus. While the zero-shot transferability is theoretically and empirically proven for model size related hyperparameters, like depth and width, the zero-shot transfer from small corpus to large corpus is underexplored. In this paper, we study the correlation between optimal learning rate, batch size, and number of training tokens for the recently proposed WSD scheduler. After thousands of small experiments, we found a power-law relationship between variables and demonstrated its transferability across model sizes. Based on the observation, we propose a new learning rate scheduler, Power scheduler, that is agnostic about the number of training tokens and batch size. The experiment shows that combining the Power scheduler with Maximum Update Parameterization (muP) can consistently achieve impressive performance with one set of hyperparameters regardless of the number of training tokens, batch size, model size, and even model architecture. Our 3B dense and MoE models trained with the Power scheduler achieve comparable performance as state-of-the-art small language models. We open-source these pretrained models at https://ibm.biz/BdKhLa.

Power Scheduler: Un Pianificatore del Tasso di Apprendimento Indipendente dalla Dimensione del Batch e dal Numero di Token

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

Abstract

Support