ChatPaper.aiChatPaper

Taalmodellen schalen betrouwbaar met overtraining en op downstreamtaken.

Language models scale reliably with over-training and on downstream tasks

March 13, 2024
Auteurs: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI

Samenvatting

Schaalwetten zijn nuttige richtlijnen voor het ontwikkelen van taalmodellen, maar er bestaan nog steeds hiaten tussen huidige schaalstudies en hoe taalmodellen uiteindelijk worden getraind en geëvalueerd. Zo wordt schaling meestal bestudeerd in het compute-optimale trainingsregime (d.w.z. het "Chinchilla-optimale" regime); in de praktijk worden modellen echter vaak overgetraind om de inferentiekosten te verlagen. Bovendien voorspellen schaalwetten vooral het verlies bij next-token-voorspelling, maar uiteindelijk worden modellen vergeleken op basis van prestaties bij downstream taken. In dit artikel gaan we in op beide tekortkomingen. Hiervoor creëren we een testomgeving van 104 modellen met 0,011B tot 6,9B parameters, getraind met verschillende aantallen tokens op drie datadistributies. Ten eerste onderzoeken we schaling in het overgetrainde regime. We passen schaalwetten toe die extrapoleren in zowel het aantal modelparameters als de verhouding tussen trainings-tokens en parameters. Hierdoor kunnen we het validatieverlies voorspellen van een run met 1,4B parameters en 900B tokens (d.w.z. 32 keer overgetraind) en een run met 6,9B parameters en 138B tokens—elk gebaseerd op experimenten die 300 keer minder rekenkracht vereisen. Ten tweede relateren we de perplexiteit van een taalmodel aan zijn prestaties bij downstream taken via een machtswet. We gebruiken deze wet om de top-1-fout, gemiddeld over downstream taken, te voorspellen voor de twee eerder genoemde modellen met experimenten die 20 keer minder rekenkracht vereisen. Onze experimenten zijn beschikbaar op https://github.com/mlfoundations/scaling.
English
Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32times over-trained) and a 6.9B parameter, 138B token runx2014each from experiments that take 300times less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20times less compute. Our experiments are available at https://github.com/mlfoundations/scaling.
PDF151December 15, 2024