Leyes de Escalabilidad para Mezclas Óptimas de Datos
Scaling Laws for Optimal Data Mixtures
July 12, 2025
Autores: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI
Resumen
Los grandes modelos fundacionales suelen entrenarse con datos de múltiples dominios, donde la mezcla de datos—la proporción de cada dominio utilizado—desempeña un papel crítico en el rendimiento del modelo. El enfoque estándar para seleccionar esta mezcla se basa en prueba y error, lo que se vuelve impracticable para el preentrenamiento a gran escala. Proponemos un método sistemático para determinar la mezcla óptima de datos para cualquier dominio objetivo utilizando leyes de escalamiento. Nuestro enfoque predice con precisión la pérdida de un modelo de tamaño N entrenado con D tokens y un vector de ponderación de dominio específico h. Validamos la universalidad de estas leyes de escalamiento demostrando su poder predictivo en tres configuraciones distintas y a gran escala: preentrenamiento de modelos de lenguaje grande (LLM), modelos multimodales nativos (NMM) y modelos de visión grande (LVM). Además, mostramos que estas leyes de escalamiento pueden extrapolarse a nuevas mezclas de datos y a través de escalas: sus parámetros pueden estimarse con precisión utilizando unas pocas ejecuciones de entrenamiento a pequeña escala, y luego usarse para estimar el rendimiento a escalas mayores y con ponderaciones de dominio no vistas. Las leyes de escalamiento permiten derivar las ponderaciones óptimas de dominio para cualquier dominio objetivo bajo un presupuesto de entrenamiento dado (N, D), ofreciendo una alternativa fundamentada a los costosos métodos de prueba y error.
English
Large foundation models are typically trained on data from multiple domains,
with the data mixture--the proportion of each domain used--playing a critical
role in model performance. The standard approach to selecting this mixture
relies on trial and error, which becomes impractical for large-scale
pretraining. We propose a systematic method to determine the optimal data
mixture for any target domain using scaling laws. Our approach accurately
predicts the loss of a model of size N trained with D tokens and a specific
domain weight vector h. We validate the universality of these scaling laws by
demonstrating their predictive power in three distinct and large-scale
settings: large language model (LLM), native multimodal model (NMM), and large
vision models (LVM) pretraining. We further show that these scaling laws can
extrapolate to new data mixtures and across scales: their parameters can be
accurately estimated using a few small-scale training runs, and used to
estimate the performance at larger scales and unseen domain weights. The
scaling laws allow to derive the optimal domain weights for any target domain
under a given training budget (N,D), providing a principled alternative to
costly trial-and-error methods.