Leis de Escalabilidade para o Desempenho em Tarefas Secundárias de Modelos de Linguagem de Grande Escala

Resumo

As leis de escalonamento fornecem insights importantes que podem orientar o projeto de grandes modelos de linguagem (LLMs, na sigla em inglês). O trabalho existente tem se concentrado principalmente no estudo das leis de escalonamento para a perda durante o pré-treinamento (fase upstream). No entanto, em cenários de aprendizado por transferência, nos quais os LLMs são pré-treinados em um conjunto de dados não supervisionado e depois ajustados (finetuned) para uma tarefa downstream, frequentemente também nos preocupamos com o desempenho downstream. Neste trabalho, estudamos o comportamento de escalonamento em um cenário de aprendizado por transferência, onde os LLMs são ajustados para tarefas de tradução automática. Especificamente, investigamos como a escolha dos dados de pré-treinamento e seu tamanho afetam o desempenho downstream (qualidade da tradução), conforme avaliado por duas métricas: entropia cruzada downstream e pontuação BLEU. Nossos experimentos indicam que o tamanho do conjunto de dados de ajuste fino e o alinhamento de distribuição entre os dados de pré-treinamento e os dados downstream influenciam significativamente o comportamento de escalonamento. Com alinhamento suficiente, tanto a entropia cruzada downstream quanto a pontuação BLEU melhoram monotonicamente com mais dados de pré-treinamento. Nesses casos, mostramos que é possível prever a pontuação BLEU downstream com boa precisão usando uma lei logarítmica. No entanto, também há casos em que um desalinhamento moderado faz com que a pontuação BLEU flutue ou piore com mais pré-treinamento, enquanto a entropia cruzada downstream melhora monotonicamente. Ao analisar essas observações, fornecemos novos insights práticos para a escolha de dados de pré-treinamento apropriados.

English

Scaling laws provide important insights that can guide the design of large language models (LLMs). Existing work has primarily focused on studying scaling laws for pretraining (upstream) loss. However, in transfer learning settings, in which LLMs are pretrained on an unsupervised dataset and then finetuned on a downstream task, we often also care about the downstream performance. In this work, we study the scaling behavior in a transfer learning setting, where LLMs are finetuned for machine translation tasks. Specifically, we investigate how the choice of the pretraining data and its size affect downstream performance (translation quality) as judged by two metrics: downstream cross-entropy and BLEU score. Our experiments indicate that the size of the finetuning dataset and the distribution alignment between the pretraining and downstream data significantly influence the scaling behavior. With sufficient alignment, both downstream cross-entropy and BLEU score improve monotonically with more pretraining data. In such cases, we show that it is possible to predict the downstream BLEU score with good accuracy using a log-law. However, there are also cases where moderate misalignment causes the BLEU score to fluctuate or get worse with more pretraining, whereas downstream cross-entropy monotonically improves. By analyzing these observations, we provide new practical insights for choosing appropriate pretraining data.

Leis de Escalabilidade para o Desempenho em Tarefas Secundárias de Modelos de Linguagem de Grande Escala

Scaling Laws for Downstream Task Performance of Large Language Models

Resumo

Support