Los modelos de lenguaje escalan de manera confiable con el sobreentrenamiento y en tareas posteriores.

Resumen

Las leyes de escalado son guías útiles para desarrollar modelos de lenguaje, pero aún existen brechas entre los estudios actuales de escalado y cómo los modelos de lenguaje son finalmente entrenados y evaluados. Por ejemplo, el escalado suele estudiarse en el régimen de entrenamiento óptimo en términos de cómputo (es decir, el régimen "óptimo de Chinchilla"); sin embargo, en la práctica, los modelos a menudo se sobreentrenan para reducir los costos de inferencia. Además, las leyes de escalado principalmente predicen la pérdida en la predicción del siguiente token, pero al final los modelos se comparan en función del rendimiento en tareas posteriores. En este artículo, abordamos ambas limitaciones. Para ello, creamos un banco de pruebas de 104 modelos con parámetros que van desde 0.011B hasta 6.9B, entrenados con diferentes cantidades de tokens en tres distribuciones de datos. Primero, investigamos el escalado en el régimen de sobreentrenamiento. Ajustamos leyes de escalado que extrapolan tanto en el número de parámetros del modelo como en la proporción de tokens de entrenamiento respecto a los parámetros. Esto nos permite predecir la pérdida de validación de una ejecución con 1.4B parámetros y 900B tokens (es decir, 32 veces sobreentrenada) y una ejecución con 6.9B parámetros y 138B tokens, cada una a partir de experimentos que requieren 300 veces menos cómputo. En segundo lugar, relacionamos la perplejidad de un modelo de lenguaje con su rendimiento en tareas posteriores mediante una ley de potencia. Usamos esta ley para predecir el error promedio top-1 en tareas posteriores para los dos modelos mencionados anteriormente, utilizando experimentos que requieren 20 veces menos cómputo. Nuestros experimentos están disponibles en https://github.com/mlfoundations/scaling.

English

Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32times over-trained) and a 6.9B parameter, 138B token runx2014each from experiments that take 300times less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20times less compute. Our experiments are available at https://github.com/mlfoundations/scaling.

Los modelos de lenguaje escalan de manera confiable con el sobreentrenamiento y en tareas posteriores.

Language models scale reliably with over-training and on downstream tasks

Resumen

Support