Прогнозирование потерь-по-потерям: законы масштабирования для всех наборов данных
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
Авторы: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
Аннотация
Хотя законы масштабирования обеспечивают надежную методологию для прогнозирования потерь обучения при изменении масштабов вычислений для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию прогнозирования одной потери на основе другой и применяем ее для прогнозирования при использовании различных наборов данных для предварительного обучения и от предварительного обучения к данным для последующих задач. Наши прогнозы хорошо экстраполируются даже при бюджете FLOP, превышающем в 20 раз самый большой использованный для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные закономерности между (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели объединены по вычислительным ресурсам (обучение-обучение), (2) потерей обучения и потерей на тесте на любом последующем распределении для одной модели (обучение-тест), и (3) потерями на тесте двух моделей, обученных на двух разных наборах данных для обучения (тест-тест). Полученные результаты подтверждаются для наборов данных для предварительного обучения, значительно отличающихся друг от друга (некоторые состоят исключительно из кода, а другие вообще не содержат кода), а также для различных последующих задач. Наконец, мы обнаружили, что в некоторых случаях эти сдвинутые степенные закономерности могут обеспечить более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.