Leggi di Scalabilità per Miscele Ottimali di Dati
Scaling Laws for Optimal Data Mixtures
July 12, 2025
Autori: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI
Abstract
I grandi modelli di base sono tipicamente addestrati su dati provenienti da più domini, con la miscela di dati—la proporzione di ciascun dominio utilizzato—che svolge un ruolo cruciale nelle prestazioni del modello. L'approccio standard per selezionare questa miscela si basa su tentativi ed errori, che diventano impraticabili per il pre-addestramento su larga scala. Proponiamo un metodo sistematico per determinare la miscela ottimale di dati per qualsiasi dominio target utilizzando le leggi di scala. Il nostro approccio prevede accuratamente la perdita di un modello di dimensione N addestrato con D token e un vettore di pesi di dominio specifico h. Validiamo l'universalità di queste leggi di scala dimostrando il loro potere predittivo in tre contesti distinti e su larga scala: pre-addestramento di grandi modelli linguistici (LLM), modelli multimodali nativi (NMM) e grandi modelli visivi (LVM). Mostriamo inoltre che queste leggi di scala possono estrapolare a nuove miscele di dati e attraverso diverse scale: i loro parametri possono essere stimati accuratamente utilizzando alcune esecuzioni di addestramento su piccola scala e utilizzati per stimare le prestazioni a scale più grandi e pesi di dominio non visti. Le leggi di scala consentono di derivare i pesi di dominio ottimali per qualsiasi dominio target sotto un determinato budget di addestramento (N,D), fornendo un'alternativa basata su principi ai costosi metodi di tentativi ed errori.
English
Large foundation models are typically trained on data from multiple domains,
with the data mixture--the proportion of each domain used--playing a critical
role in model performance. The standard approach to selecting this mixture
relies on trial and error, which becomes impractical for large-scale
pretraining. We propose a systematic method to determine the optimal data
mixture for any target domain using scaling laws. Our approach accurately
predicts the loss of a model of size N trained with D tokens and a specific
domain weight vector h. We validate the universality of these scaling laws by
demonstrating their predictive power in three distinct and large-scale
settings: large language model (LLM), native multimodal model (NMM), and large
vision models (LVM) pretraining. We further show that these scaling laws can
extrapolate to new data mixtures and across scales: their parameters can be
accurately estimated using a few small-scale training runs, and used to
estimate the performance at larger scales and unseen domain weights. The
scaling laws allow to derive the optimal domain weights for any target domain
under a given training budget (N,D), providing a principled alternative to
costly trial-and-error methods.