Sprachmodelle skalieren zuverlässig mit Überanpassung und bei nachgelagerten Aufgaben.
Language models scale reliably with over-training and on downstream tasks
March 13, 2024
Autoren: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI
Zusammenfassung
Skalierungsgesetze sind nützliche Leitfaden zur Entwicklung von Sprachmodellen, aber es bestehen immer noch Lücken zwischen aktuellen Skalierungsstudien und der letztendlichen Schulung und Bewertung von Sprachmodellen. Beispielsweise wird die Skalierung in der rechenoptimalen Trainingssituation (d. h. "Chinchilla-optimal" Situation) üblicherweise untersucht; jedoch werden Modelle in der Praxis oft übertrainiert, um Inferenzkosten zu reduzieren. Darüber hinaus sagen Skalierungsgesetze hauptsächlich den Verlust bei der Vorhersage des nächsten Tokens voraus, aber letztendlich werden Modelle basierend auf der Leistung bei nachgelagerten Aufgaben verglichen. In diesem Artikel behandeln wir beide Mängel. Dazu erstellen wir einen Testdatensatz von 104 Modellen mit 0,011 Mrd. bis 6,9 Mrd. Parametern, die mit verschiedenen Tokenmengen auf drei Datensätzen trainiert wurden. Zunächst untersuchen wir die Skalierung im übertrainierten Bereich. Wir passen Skalierungsgesetze an, die sowohl die Anzahl der Modellparameter als auch das Verhältnis von Trainings-Token zu Parametern extrapolieren. Dies ermöglicht uns die Vorhersage des Validierungsverlusts eines Laufs mit 1,4 Mrd. Parametern und 900 Mrd. Token (d. h. 32-mal übertrainiert) und eines Laufs mit 6,9 Mrd. Parametern und 138 Mrd. Token - jeweils aus Experimenten, die 300-mal weniger Rechenleistung benötigen. Zweitens bringen wir die Perplexität eines Sprachmodells mit seiner Leistung bei nachgelagerten Aufgaben über ein Potenzgesetz in Verbindung. Wir verwenden dieses Gesetz, um den Top-1 Fehler über nachgelagerte Aufgaben für die beiden zuvor genannten Modelle vorherzusagen, wobei Experimente verwendet werden, die 20-mal weniger Rechenleistung benötigen. Unsere Experimente sind unter https://github.com/mlfoundations/scaling verfügbar.
English
Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32times over-trained) and a 6.9B parameter, 138B token
runx2014each from experiments that take 300times less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20times less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.Summary
AI-Generated Summary