Les modèles de langage s'améliorent de manière fiable avec un surentraînement et sur des tâches en aval.
Language models scale reliably with over-training and on downstream tasks
March 13, 2024
Auteurs: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI
Résumé
Les lois d'échelle constituent des guides utiles pour le développement de modèles de langage, mais il existe encore des écarts entre les études actuelles sur l'échelle et la manière dont les modèles de langage sont finalement entraînés et évalués. Par exemple, l'échelle est généralement étudiée dans le régime d'entraînement optimal en termes de calcul (c'est-à-dire le régime "Chinchilla optimal") ; cependant, en pratique, les modèles sont souvent surentraînés pour réduire les coûts d'inférence. De plus, les lois d'échelle prédisent principalement la perte sur la prédiction du token suivant, mais les modèles sont finalement comparés sur la base de leur performance sur des tâches en aval. Dans cet article, nous abordons ces deux lacunes. Pour ce faire, nous créons un banc d'essai de 104 modèles avec des paramètres allant de 0,011 milliard à 6,9 milliards, entraînés avec différents nombres de tokens sur trois distributions de données. Premièrement, nous étudions l'échelle dans le régime de surentraînement. Nous ajustons des lois d'échelle qui extrapolent à la fois le nombre de paramètres du modèle et le ratio de tokens d'entraînement par paramètre. Cela nous permet de prédire la perte de validation d'une exécution avec 1,4 milliard de paramètres et 900 milliards de tokens (c'est-à-dire 32 fois surentraînée) et d'une exécution avec 6,9 milliards de paramètres et 138 milliards de tokens—chacune à partir d'expériences nécessitant 300 fois moins de calcul. Deuxièmement, nous relions la perplexité d'un modèle de langage à sa performance sur des tâches en aval via une loi de puissance. Nous utilisons cette loi pour prédire l'erreur top-1 moyenne sur les tâches en aval pour les deux modèles mentionnés précédemment, en utilisant des expériences nécessitant 20 fois moins de calcul. Nos expériences sont disponibles à l'adresse https://github.com/mlfoundations/scaling.
English
Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32times over-trained) and a 6.9B parameter, 138B token
runx2014each from experiments that take 300times less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20times less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.Summary
AI-Generated Summary