損失予測:すべてのデータセットに対するスケーリング則
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
著者: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
要旨
スケーリング則は、単一のデータ分布に対する計算スケール間のトレーニング損失を予測するための信頼性の高い手法を提供しますが、これらの予測が分布を変更する際にどのように変化すべきかについてはあまり知られていません。本論文では、異なる事前トレーニングデータセット間でのトレーニング損失を予測する戦略を導出し、さらに、事前トレーニングデータから後段タスクデータへの予測に適用します。20倍の最大FLOP予算でも曲線に適合させるために使用された場合でも、私たちの予測はうまく外挿されます。具体的には、トレーニング計算によってペアリングされた2つの異なるデータセットでトレーニングされた2つのモデルのトレーニング損失(トレーニング間)、単一モデルの後段分布におけるトレーニング損失とテスト損失(トレーニングからテスト)、および2つの異なるトレーニングデータセットでトレーニングされた2つのモデルのテスト損失(テスト間)の間には、単純なシフトされたべき乗則の関係が存在することがわかりました。これらの結果は、大幅に異なる事前トレーニングデータセット(一部はコードのみであり、他のものはまったくコードを含まない)やさまざまな後段タスクにわたって成立します。最後に、一部の設定では、これらのシフトされたべき乗則の関係が、単一データセットのスケーリング則を外挿するよりも正確な予測を提供できることがわかりました。
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.Summary
AI-Generated Summary