ChatPaper.aiChatPaper

Schaalwetten voor Prestaties van Downstream Taken bij Grote Taalmodellen

Scaling Laws for Downstream Task Performance of Large Language Models

February 6, 2024
Auteurs: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI

Samenvatting

Schaalwetten bieden belangrijke inzichten die kunnen helpen bij het ontwerp van grote taalmodelen (LLM's). Bestaand onderzoek heeft zich voornamelijk gericht op het bestuderen van schaalwetten voor de verliesfunctie tijdens het vooraf trainen (upstream). Echter, in transfer learning situaties, waarbij LLM's eerst getraind worden op een onbewaakte dataset en vervolgens afgestemd worden op een downstream taak, is de downstream prestaties vaak ook van belang. In dit werk bestuderen we het schaalgedrag in een transfer learning setting, waarbij LLM's worden afgestemd voor machinevertaaltaken. Specifiek onderzoeken we hoe de keuze van de vooraf trainingsdata en de omvang daarvan de downstream prestaties (vertaalkwaliteit) beïnvloeden, zoals beoordeeld door twee metrieken: downstream kruis-entropie en BLEU-score. Onze experimenten tonen aan dat de omvang van de afstemdataset en de distributie-afstemming tussen de vooraf trainingsdata en de downstream data een significante invloed hebben op het schaalgedrag. Bij voldoende afstemming verbeteren zowel de downstream kruis-entropie als de BLEU-score monotoon met meer vooraf trainingsdata. In dergelijke gevallen laten we zien dat het mogelijk is om de downstream BLEU-score met goede nauwkeurigheid te voorspellen met behulp van een log-wet. Er zijn echter ook gevallen waarin een matige misafstemming ervoor zorgt dat de BLEU-score fluctueert of verslechtert met meer vooraf training, terwijl de downstream kruis-entropie monotoon verbetert. Door deze observaties te analyseren, bieden we nieuwe praktische inzichten voor het kiezen van geschikte vooraf trainingsdata.
English
Scaling laws provide important insights that can guide the design of large language models (LLMs). Existing work has primarily focused on studying scaling laws for pretraining (upstream) loss. However, in transfer learning settings, in which LLMs are pretrained on an unsupervised dataset and then finetuned on a downstream task, we often also care about the downstream performance. In this work, we study the scaling behavior in a transfer learning setting, where LLMs are finetuned for machine translation tasks. Specifically, we investigate how the choice of the pretraining data and its size affect downstream performance (translation quality) as judged by two metrics: downstream cross-entropy and BLEU score. Our experiments indicate that the size of the finetuning dataset and the distribution alignment between the pretraining and downstream data significantly influence the scaling behavior. With sufficient alignment, both downstream cross-entropy and BLEU score improve monotonically with more pretraining data. In such cases, we show that it is possible to predict the downstream BLEU score with good accuracy using a log-law. However, there are also cases where moderate misalignment causes the BLEU score to fluctuate or get worse with more pretraining, whereas downstream cross-entropy monotonically improves. By analyzing these observations, we provide new practical insights for choosing appropriate pretraining data.
PDF204February 8, 2026