Leis de Escalabilidade para o Desempenho em Tarefas Secundárias de Modelos de Linguagem de Grande Escala
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
Autores: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
Resumo
As leis de escalonamento fornecem insights importantes que podem orientar o projeto de grandes modelos de linguagem (LLMs, na sigla em inglês). O trabalho existente tem se concentrado principalmente no estudo das leis de escalonamento para a perda durante o pré-treinamento (fase upstream). No entanto, em cenários de aprendizado por transferência, nos quais os LLMs são pré-treinados em um conjunto de dados não supervisionado e depois ajustados (finetuned) para uma tarefa downstream, frequentemente também nos preocupamos com o desempenho downstream. Neste trabalho, estudamos o comportamento de escalonamento em um cenário de aprendizado por transferência, onde os LLMs são ajustados para tarefas de tradução automática. Especificamente, investigamos como a escolha dos dados de pré-treinamento e seu tamanho afetam o desempenho downstream (qualidade da tradução), conforme avaliado por duas métricas: entropia cruzada downstream e pontuação BLEU. Nossos experimentos indicam que o tamanho do conjunto de dados de ajuste fino e o alinhamento de distribuição entre os dados de pré-treinamento e os dados downstream influenciam significativamente o comportamento de escalonamento. Com alinhamento suficiente, tanto a entropia cruzada downstream quanto a pontuação BLEU melhoram monotonicamente com mais dados de pré-treinamento. Nesses casos, mostramos que é possível prever a pontuação BLEU downstream com boa precisão usando uma lei logarítmica. No entanto, também há casos em que um desalinhamento moderado faz com que a pontuação BLEU flutue ou piore com mais pré-treinamento, enquanto a entropia cruzada downstream melhora monotonicamente. Ao analisar essas observações, fornecemos novos insights práticos para a escolha de dados de pré-treinamento apropriados.
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.