I modelli linguistici scalano in modo affidabile con un sovra-addestramento e su compiti downstream.

Abstract

Le leggi di scalabilità sono guide utili per lo sviluppo di modelli linguistici, ma esistono ancora lacune tra gli studi attuali sulla scalabilità e il modo in cui i modelli linguistici vengono effettivamente addestrati e valutati. Ad esempio, la scalabilità viene solitamente studiata nel regime di addestramento ottimale dal punto di vista computazionale (cioè il regime "ottimale di Chinchilla"); tuttavia, nella pratica, i modelli vengono spesso sovra-addestrati per ridurre i costi di inferenza. Inoltre, le leggi di scalabilità prevedono principalmente la perdita nella previsione del token successivo, ma alla fine i modelli vengono confrontati in base alle prestazioni su task downstream. In questo articolo, affrontiamo entrambe queste carenze. Per farlo, creiamo un banco di prova composto da 104 modelli con parametri che vanno da 0,011 miliardi a 6,9 miliardi, addestrati con vari numeri di token su tre distribuzioni di dati. In primo luogo, investigiamo la scalabilità nel regime di sovra-addestramento. Adattiamo leggi di scalabilità che estrapolano sia il numero di parametri del modello sia il rapporto tra token di addestramento e parametri. Questo ci permette di prevedere la perdita di validazione di un'esecuzione con 1,4 miliardi di parametri e 900 miliardi di token (cioè 32 volte sovra-addestrata) e di un'esecuzione con 6,9 miliardi di parametri e 138 miliardi di token—ciascuna derivata da esperimenti che richiedono 300 volte meno calcolo. In secondo luogo, colleghiamo la perplessità di un modello linguistico alle sue prestazioni su task downstream attraverso una legge di potenza. Utilizziamo questa legge per prevedere l'errore top-1 mediato su task downstream per i due modelli sopra citati, utilizzando esperimenti che richiedono 20 volte meno calcolo. I nostri esperimenti sono disponibili all'indirizzo https://github.com/mlfoundations/scaling.

English

Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32times over-trained) and a 6.9B parameter, 138B token runx2014each from experiments that take 300times less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20times less compute. Our experiments are available at https://github.com/mlfoundations/scaling.

I modelli linguistici scalano in modo affidabile con un sovra-addestramento e su compiti downstream.

Language models scale reliably with over-training and on downstream tasks

Abstract

Support