ChatPaper.aiChatPaper

Previsão de Perda-a-Perda: Leis de Escala para Todos os Conjuntos de Dados

Loss-to-Loss Prediction: Scaling Laws for All Datasets

November 19, 2024
Autores: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI

Resumo

Embora as leis de escala forneçam uma metodologia confiável para prever a perda de treinamento em diferentes escalas de computação para uma única distribuição de dados, sabe-se menos sobre como essas previsões devem mudar ao alterarmos a distribuição. Neste artigo, derivamos uma estratégia para prever uma perda a partir de outra e a aplicamos para prever em diferentes conjuntos de dados de pré-treinamento e do pré-treinamento para os dados da tarefa subsequente. Nossas previsões extrapolam bem, mesmo em 20 vezes o maior orçamento de FLOP usado para ajustar as curvas. Mais precisamente, descobrimos que existem relações simples de lei de potência deslocada entre (1) as perdas de treinamento de dois modelos treinados em dois conjuntos de dados separados quando os modelos são emparelhados pelo cálculo de treinamento (treino-a-treino), (2) a perda de treinamento e a perda de teste em qualquer distribuição subsequente para um único modelo (treino-a-teste), e (3) as perdas de teste de dois modelos treinados em dois conjuntos de dados de treinamento separados (teste-a-teste). Os resultados se mantêm para conjuntos de dados de pré-treinamento que diferem substancialmente (alguns são totalmente compostos por código e outros não possuem código algum) e em uma variedade de tarefas subsequentes. Por fim, descobrimos que em alguns cenários essas relações de lei de potência deslocada podem fornecer previsões mais precisas do que a extrapolação das leis de escala de um único conjunto de dados.
English
While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.

Summary

AI-Generated Summary

PDF52November 21, 2024