Leggi di Scalabilità per le Prestazioni nei Compiti Downstream dei Modelli Linguistici di Grandi Dimensioni

Abstract

Le leggi di scala forniscono importanti indicazioni che possono guidare la progettazione di grandi modelli linguistici (LLM). Il lavoro esistente si è principalmente concentrato sullo studio delle leggi di scala per la perdita durante il pretraining (a monte). Tuttavia, negli scenari di transfer learning, in cui i LLM vengono prima addestrati su un dataset non supervisionato e poi affinati su un task a valle, spesso ci interessa anche la performance a valle. In questo lavoro, studiamo il comportamento di scala in un contesto di transfer learning, in cui i LLM vengono affinati per task di traduzione automatica. Nello specifico, indaghiamo come la scelta dei dati di pretraining e la loro dimensione influenzino la performance a valle (qualità della traduzione) valutata attraverso due metriche: l'entropia incrociata a valle e il punteggio BLEU. I nostri esperimenti indicano che la dimensione del dataset di affinamento e l'allineamento distributivo tra i dati di pretraining e quelli a valle influenzano significativamente il comportamento di scala. Con un sufficiente allineamento, sia l'entropia incrociata a valle che il punteggio BLEU migliorano monotonamente con più dati di pretraining. In tali casi, dimostriamo che è possibile prevedere con buona accuratezza il punteggio BLEU a valle utilizzando una legge logaritmica. Tuttavia, ci sono anche casi in cui un moderato disallineamento fa sì che il punteggio BLEU fluttui o peggiori con più pretraining, mentre l'entropia incrociata a valle migliora monotonamente. Analizzando queste osservazioni, forniamo nuove intuizioni pratiche per la scelta di dati di pretraining appropriati.

English

Scaling laws provide important insights that can guide the design of large language models (LLMs). Existing work has primarily focused on studying scaling laws for pretraining (upstream) loss. However, in transfer learning settings, in which LLMs are pretrained on an unsupervised dataset and then finetuned on a downstream task, we often also care about the downstream performance. In this work, we study the scaling behavior in a transfer learning setting, where LLMs are finetuned for machine translation tasks. Specifically, we investigate how the choice of the pretraining data and its size affect downstream performance (translation quality) as judged by two metrics: downstream cross-entropy and BLEU score. Our experiments indicate that the size of the finetuning dataset and the distribution alignment between the pretraining and downstream data significantly influence the scaling behavior. With sufficient alignment, both downstream cross-entropy and BLEU score improve monotonically with more pretraining data. In such cases, we show that it is possible to predict the downstream BLEU score with good accuracy using a log-law. However, there are also cases where moderate misalignment causes the BLEU score to fluctuate or get worse with more pretraining, whereas downstream cross-entropy monotonically improves. By analyzing these observations, we provide new practical insights for choosing appropriate pretraining data.

Leggi di Scalabilità per le Prestazioni nei Compiti Downstream dei Modelli Linguistici di Grandi Dimensioni

Scaling Laws for Downstream Task Performance of Large Language Models

Abstract

Support