Skalierungsgesetze für die Leistung von großen Sprachmodellen bei nachgelagerten Aufgaben
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
Autoren: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
Zusammenfassung
Skalierungsgesetze liefern wichtige Erkenntnisse, die das Design großer Sprachmodelle (LLMs) leiten können. Bisherige Arbeiten konzentrierten sich hauptsächlich auf die Untersuchung von Skalierungsgesetzen für den Pretraining-Verlust (Upstream). In Transfer-Learning-Szenarien jedoch, in denen LLMs auf einem unüberwachten Datensatz vortrainiert und anschließend auf eine Downstream-Aufgabe feinabgestimmt werden, ist oft auch die Downstream-Leistung von Interesse. In dieser Arbeit untersuchen wir das Skalierungsverhalten in einem Transfer-Learning-Setting, in dem LLMs für maschinelle Übersetzungsaufgaben feinabgestimmt werden. Insbesondere analysieren wir, wie die Wahl der Pretraining-Daten und deren Umfang die Downstream-Leistung (Übersetzungsqualität) beeinflussen, gemessen an zwei Metriken: Downstream-Cross-Entropy und BLEU-Score. Unsere Experimente zeigen, dass die Größe des Feinabstimmungsdatensatzes und die Verteilungsübereinstimmung zwischen den Pretraining- und Downstream-Daten das Skalierungsverhalten maßgeblich beeinflussen. Bei ausreichender Übereinstimmung verbessern sich sowohl die Downstream-Cross-Entropy als auch der BLEU-Score monoton mit mehr Pretraining-Daten. In solchen Fällen zeigen wir, dass es möglich ist, den Downstream-BLEU-Score mit guter Genauigkeit mithilfe eines logarithmischen Gesetzes vorherzusagen. Es gibt jedoch auch Fälle, in denen eine mäßige Fehlausrichtung dazu führt, dass der BLEU-Score schwankt oder sich mit mehr Pretraining verschlechtert, während die Downstream-Cross-Entropy monoton ansteigt. Durch die Analyse dieser Beobachtungen liefern wir neue praktische Erkenntnisse für die Auswahl geeigneter Pretraining-Daten.
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.