大規模言語モデルの下流タスク性能におけるスケーリング則
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
著者: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
要旨
スケーリング則は、大規模言語モデル(LLM)の設計を導く重要な洞察を提供します。既存の研究は主に、事前学習(上流)の損失に関するスケーリング則の研究に焦点を当ててきました。しかし、LLMが教師なしデータセットで事前学習され、その後下流タスクでファインチューニングされる転移学習の設定では、下流の性能も重要です。本研究では、機械翻訳タスクのためにLLMをファインチューニングする転移学習の設定におけるスケーリング挙動を調査します。具体的には、事前学習データの選択とそのサイズが、下流の性能(翻訳品質)にどのように影響するかを、下流のクロスエントロピーとBLEUスコアという2つの指標を用いて評価します。実験結果から、ファインチューニングデータセットのサイズと、事前学習データと下流データの分布の整合性が、スケーリング挙動に大きく影響することが示されました。十分な整合性がある場合、下流のクロスエントロピーとBLEUスコアは、より多くの事前学習データとともに単調に改善します。そのような場合、対数則を用いて下流のBLEUスコアを高い精度で予測できることを示します。しかし、中程度の不整合がある場合、BLEUスコアが変動したり、事前学習データが増えるにつれて悪化する一方で、下流のクロスエントロピーは単調に改善するケースもあります。これらの観察結果を分析することで、適切な事前学習データを選択するための新たな実践的な知見を提供します。
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.