Modelos de linguagem escalam de forma confiável com o excesso de treinamento e em tarefas subsequentes.

Resumo

As leis de escalonamento são guias úteis para o desenvolvimento de modelos de linguagem, mas ainda existem lacunas entre os estudos atuais de escalonamento e a forma como os modelos de linguagem são, em última instância, treinados e avaliados. Por exemplo, o escalonamento é geralmente estudado no regime de treinamento ótimo em termos de computação (ou seja, o regime "ótimo de Chinchilla"); no entanto, na prática, os modelos são frequentemente supertreinados para reduzir os custos de inferência. Além disso, as leis de escalonamento preveem principalmente a perda na previsão do próximo token, mas, em última análise, os modelos são comparados com base no desempenho em tarefas subsequentes. Neste artigo, abordamos ambas as deficiências. Para isso, criamos um conjunto de testes com 104 modelos, variando de 0,011B a 6,9B de parâmetros, treinados com diferentes quantidades de tokens em três distribuições de dados. Primeiro, investigamos o escalonamento no regime de supertreinamento. Ajustamos leis de escalonamento que extrapolam tanto o número de parâmetros do modelo quanto a razão entre tokens de treinamento e parâmetros. Isso nos permite prever a perda de validação de uma execução com 1,4B de parâmetros e 900B de tokens (ou seja, 32 vezes supertreinada) e de uma execução com 6,9B de parâmetros e 138B de tokens—cada uma a partir de experimentos que consomem 300 vezes menos computação. Segundo, relacionamos a perplexidade de um modelo de linguagem ao seu desempenho em tarefas subsequentes por meio de uma lei de potência. Usamos essa lei para prever o erro top-1 médio em tarefas subsequentes para os dois modelos mencionados anteriormente, utilizando experimentos que consomem 20 vezes menos computação. Nossos experimentos estão disponíveis em https://github.com/mlfoundations/scaling.

English

Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32times over-trained) and a 6.9B parameter, 138B token runx2014each from experiments that take 300times less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20times less compute. Our experiments are available at https://github.com/mlfoundations/scaling.

Modelos de linguagem escalam de forma confiável com o excesso de treinamento e em tarefas subsequentes.

Language models scale reliably with over-training and on downstream tasks

Resumo

Support