Los modelos de lenguaje escalan de manera confiable con el sobreentrenamiento y en tareas posteriores.
Language models scale reliably with over-training and on downstream tasks
March 13, 2024
Autores: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI
Resumen
Las leyes de escalado son guías útiles para desarrollar modelos de lenguaje, pero aún existen brechas entre los estudios actuales de escalado y cómo los modelos de lenguaje son finalmente entrenados y evaluados. Por ejemplo, el escalado suele estudiarse en el régimen de entrenamiento óptimo en términos de cómputo (es decir, el régimen "óptimo de Chinchilla"); sin embargo, en la práctica, los modelos a menudo se sobreentrenan para reducir los costos de inferencia. Además, las leyes de escalado principalmente predicen la pérdida en la predicción del siguiente token, pero al final los modelos se comparan en función del rendimiento en tareas posteriores. En este artículo, abordamos ambas limitaciones. Para ello, creamos un banco de pruebas de 104 modelos con parámetros que van desde 0.011B hasta 6.9B, entrenados con diferentes cantidades de tokens en tres distribuciones de datos. Primero, investigamos el escalado en el régimen de sobreentrenamiento. Ajustamos leyes de escalado que extrapolan tanto en el número de parámetros del modelo como en la proporción de tokens de entrenamiento respecto a los parámetros. Esto nos permite predecir la pérdida de validación de una ejecución con 1.4B parámetros y 900B tokens (es decir, 32 veces sobreentrenada) y una ejecución con 6.9B parámetros y 138B tokens, cada una a partir de experimentos que requieren 300 veces menos cómputo. En segundo lugar, relacionamos la perplejidad de un modelo de lenguaje con su rendimiento en tareas posteriores mediante una ley de potencia. Usamos esta ley para predecir el error promedio top-1 en tareas posteriores para los dos modelos mencionados anteriormente, utilizando experimentos que requieren 20 veces menos cómputo. Nuestros experimentos están disponibles en https://github.com/mlfoundations/scaling.
English
Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32times over-trained) and a 6.9B parameter, 138B token
runx2014each from experiments that take 300times less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20times less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.Summary
AI-Generated Summary