Modelos de linguagem escalam de forma confiável com o excesso de treinamento e em tarefas subsequentes.
Language models scale reliably with over-training and on downstream tasks
March 13, 2024
Autores: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI
Resumo
As leis de escalonamento são guias úteis para o desenvolvimento de modelos de linguagem, mas ainda existem lacunas entre os estudos atuais de escalonamento e a forma como os modelos de linguagem são, em última instância, treinados e avaliados. Por exemplo, o escalonamento é geralmente estudado no regime de treinamento ótimo em termos de computação (ou seja, o regime "ótimo de Chinchilla"); no entanto, na prática, os modelos são frequentemente supertreinados para reduzir os custos de inferência. Além disso, as leis de escalonamento preveem principalmente a perda na previsão do próximo token, mas, em última análise, os modelos são comparados com base no desempenho em tarefas subsequentes. Neste artigo, abordamos ambas as deficiências. Para isso, criamos um conjunto de testes com 104 modelos, variando de 0,011B a 6,9B de parâmetros, treinados com diferentes quantidades de tokens em três distribuições de dados. Primeiro, investigamos o escalonamento no regime de supertreinamento. Ajustamos leis de escalonamento que extrapolam tanto o número de parâmetros do modelo quanto a razão entre tokens de treinamento e parâmetros. Isso nos permite prever a perda de validação de uma execução com 1,4B de parâmetros e 900B de tokens (ou seja, 32 vezes supertreinada) e de uma execução com 6,9B de parâmetros e 138B de tokens—cada uma a partir de experimentos que consomem 300 vezes menos computação. Segundo, relacionamos a perplexidade de um modelo de linguagem ao seu desempenho em tarefas subsequentes por meio de uma lei de potência. Usamos essa lei para prever o erro top-1 médio em tarefas subsequentes para os dois modelos mencionados anteriormente, utilizando experimentos que consomem 20 vezes menos computação. Nossos experimentos estão disponíveis em https://github.com/mlfoundations/scaling.
English
Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32times over-trained) and a 6.9B parameter, 138B token
runx2014each from experiments that take 300times less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20times less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.