Leyes de Escalado para el Rendimiento en Tareas Secundarias de Modelos de Lenguaje a Gran Escala
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
Autores: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
Resumen
Las leyes de escalamiento proporcionan información importante que puede guiar el diseño de modelos de lenguaje a gran escala (LLMs). El trabajo existente se ha centrado principalmente en estudiar las leyes de escalamiento para la pérdida durante el preentrenamiento (fase inicial). Sin embargo, en entornos de aprendizaje por transferencia, donde los LLMs se preentrenan con un conjunto de datos no supervisado y luego se ajustan para una tarea específica, también nos interesa el rendimiento en la tarea final. En este trabajo, estudiamos el comportamiento de escalamiento en un entorno de aprendizaje por transferencia, donde los LLMs se ajustan para tareas de traducción automática. Específicamente, investigamos cómo la elección de los datos de preentrenamiento y su tamaño afectan el rendimiento final (calidad de la traducción), evaluado mediante dos métricas: la entropía cruzada final y la puntuación BLEU. Nuestros experimentos indican que el tamaño del conjunto de datos de ajuste y la alineación de la distribución entre los datos de preentrenamiento y los datos finales influyen significativamente en el comportamiento de escalamiento. Con una alineación suficiente, tanto la entropía cruzada final como la puntuación BLEU mejoran monótonamente con más datos de preentrenamiento. En tales casos, demostramos que es posible predecir la puntuación BLEU final con buena precisión utilizando una ley logarítmica. Sin embargo, también hay casos en los que una desalineación moderada hace que la puntuación BLEU fluctúe o empeore con más preentrenamiento, mientras que la entropía cruzada final mejora monótonamente. Al analizar estas observaciones, proporcionamos nuevas ideas prácticas para elegir los datos de preentrenamiento adecuados.
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.