ChatPaper.aiChatPaper

Predicción de Pérdida a Pérdida: Leyes de Escala para Todos los Conjuntos de Datos

Loss-to-Loss Prediction: Scaling Laws for All Datasets

November 19, 2024
Autores: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI

Resumen

Si bien las leyes de escala proporcionan una metodología confiable para predecir la pérdida de entrenamiento en diferentes escalas de cómputo para una sola distribución de datos, se sabe menos sobre cómo deberían cambiar estas predicciones al modificar la distribución. En este documento, derivamos una estrategia para predecir una pérdida a partir de otra y la aplicamos para predecir en diferentes conjuntos de datos de pre-entrenamiento y desde los datos de pre-entrenamiento a los datos de tareas posteriores. Nuestras predicciones se extrapolan bien incluso a 20 veces el presupuesto FLOP más grande utilizado para ajustar las curvas. Más precisamente, encontramos que existen relaciones simples de leyes de potencia desplazadas entre (1) las pérdidas de entrenamiento de dos modelos entrenados en dos conjuntos de datos separados cuando los modelos se emparejan por cómputo de entrenamiento (entrenamiento a entrenamiento), (2) la pérdida de entrenamiento y la pérdida de prueba en cualquier distribución posterior para un solo modelo (entrenamiento a prueba), y (3) las pérdidas de prueba de dos modelos entrenados en dos conjuntos de datos de entrenamiento separados (prueba a prueba). Los resultados se mantienen para conjuntos de datos de pre-entrenamiento que difieren sustancialmente (algunos son completamente de código y otros no tienen código en absoluto) y en una variedad de tareas posteriores. Finalmente, encontramos que en algunos escenarios estas relaciones de leyes de potencia desplazadas pueden proporcionar predicciones más precisas que la extrapolación de leyes de escala de un solo conjunto de datos.
English
While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.

Summary

AI-Generated Summary

PDF52November 21, 2024