Lois d'échelle pour les mélanges de données optimaux
Scaling Laws for Optimal Data Mixtures
July 12, 2025
papers.authors: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI
papers.abstract
Les grands modèles de base sont généralement entraînés sur des données provenant de multiples domaines, le mélange de données—la proportion de chaque domaine utilisé—jouant un rôle critique dans la performance du modèle. L'approche standard pour sélectionner ce mélange repose sur des essais et erreurs, ce qui devient impraticable pour un pré-entraînement à grande échelle. Nous proposons une méthode systématique pour déterminer le mélange de données optimal pour tout domaine cible en utilisant les lois d'échelle. Notre approche prédit avec précision la perte d'un modèle de taille N entraîné avec D tokens et un vecteur de poids de domaine spécifique h. Nous validons l'universalité de ces lois d'échelle en démontrant leur pouvoir prédictif dans trois contextes distincts et à grande échelle : le pré-entraînement de grands modèles de langage (LLM), de modèles multimodaux natifs (NMM) et de grands modèles de vision (LVM). Nous montrons en outre que ces lois d'échelle peuvent extrapoler à de nouveaux mélanges de données et à travers différentes échelles : leurs paramètres peuvent être estimés avec précision à l'aide de quelques entraînements à petite échelle, et utilisés pour estimer la performance à des échelles plus grandes et pour des poids de domaine inédits. Les lois d'échelle permettent de dériver les poids de domaine optimaux pour tout domaine cible sous un budget d'entraînement donné (N, D), offrant ainsi une alternative rigoureuse aux méthodes coûteuses d'essais et erreurs.
English
Large foundation models are typically trained on data from multiple domains,
with the data mixture--the proportion of each domain used--playing a critical
role in model performance. The standard approach to selecting this mixture
relies on trial and error, which becomes impractical for large-scale
pretraining. We propose a systematic method to determine the optimal data
mixture for any target domain using scaling laws. Our approach accurately
predicts the loss of a model of size N trained with D tokens and a specific
domain weight vector h. We validate the universality of these scaling laws by
demonstrating their predictive power in three distinct and large-scale
settings: large language model (LLM), native multimodal model (NMM), and large
vision models (LVM) pretraining. We further show that these scaling laws can
extrapolate to new data mixtures and across scales: their parameters can be
accurately estimated using a few small-scale training runs, and used to
estimate the performance at larger scales and unseen domain weights. The
scaling laws allow to derive the optimal domain weights for any target domain
under a given training budget (N,D), providing a principled alternative to
costly trial-and-error methods.