Lois d'échelle pour la performance des tâches en aval des grands modèles de langage
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
papers.authors: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
papers.abstract
Les lois d'échelle fournissent des insights importants qui peuvent guider la conception des grands modèles de langage (LLMs). Les travaux existants se sont principalement concentrés sur l'étude des lois d'échelle pour la perte en phase de pré-entraînement (amont). Cependant, dans les contextes d'apprentissage par transfert, où les LLMs sont pré-entraînés sur un ensemble de données non supervisé puis affinés pour une tâche en aval, nous nous intéressons souvent également à la performance en aval. Dans ce travail, nous étudions le comportement d'échelle dans un cadre d'apprentissage par transfert, où les LLMs sont affinés pour des tâches de traduction automatique. Plus précisément, nous examinons comment le choix des données de pré-entraînement et leur taille affectent la performance en aval (qualité de traduction), évaluée par deux métriques : l'entropie croisée en aval et le score BLEU. Nos expériences indiquent que la taille de l'ensemble de données d'affinage et l'alignement de distribution entre les données de pré-entraînement et les données en aval influencent significativement le comportement d'échelle. Avec un alignement suffisant, à la fois l'entropie croisée en aval et le score BLEU s'améliorent de manière monotone avec davantage de données de pré-entraînement. Dans de tels cas, nous montrons qu'il est possible de prédire le score BLEU en aval avec une bonne précision en utilisant une loi logarithmique. Cependant, il existe également des cas où un désalignement modéré entraîne des fluctuations ou une détérioration du score BLEU avec plus de pré-entraînement, tandis que l'entropie croisée en aval s'améliore de manière monotone. En analysant ces observations, nous fournissons de nouveaux insights pratiques pour choisir des données de pré-entraînement appropriées.
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.