ChatPaper.aiChatPaper

Schaalwetten voor Optimale Datamengsels

Scaling Laws for Optimal Data Mixtures

July 12, 2025
Auteurs: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI

Samenvatting

Grote foundationmodellen worden doorgaans getraind op gegevens uit meerdere domeinen, waarbij de datamix—de verhouding van elk gebruikt domein—een cruciale rol speelt in de modelprestaties. De standaardaanpak voor het selecteren van deze mix is gebaseerd op trial and error, wat onpraktisch wordt voor grootschalige voorafgaande training. Wij stellen een systematische methode voor om de optimale datamix voor elk doeldomein te bepalen met behulp van schaalwetten. Onze aanpak voorspelt nauwkeurig het verlies van een model van grootte N getraind met D tokens en een specifiek domeingewichtsvector h. We valideren de universaliteit van deze schaalwetten door hun voorspellende kracht aan te tonen in drie verschillende en grootschalige settings: voorafgaande training van grote taalmodel (LLM), native multimodale model (NMM) en grote visionmodellen (LVM). We laten verder zien dat deze schaalwetten kunnen extrapoleren naar nieuwe datamixen en over verschillende schalen: hun parameters kunnen nauwkeurig worden geschat met behulp van enkele kleinschalige trainingsruns, en gebruikt worden om de prestaties op grotere schalen en onbekende domeingewichten te schatten. De schaalwetten maken het mogelijk om de optimale domeingewichten voor elk doeldomein af te leiden onder een bepaald trainingsbudget (N,D), wat een principiële alternatief biedt voor kostbare trial-and-error methoden.
English
Large foundation models are typically trained on data from multiple domains, with the data mixture--the proportion of each domain used--playing a critical role in model performance. The standard approach to selecting this mixture relies on trial and error, which becomes impractical for large-scale pretraining. We propose a systematic method to determine the optimal data mixture for any target domain using scaling laws. Our approach accurately predicts the loss of a model of size N trained with D tokens and a specific domain weight vector h. We validate the universality of these scaling laws by demonstrating their predictive power in three distinct and large-scale settings: large language model (LLM), native multimodal model (NMM), and large vision models (LVM) pretraining. We further show that these scaling laws can extrapolate to new data mixtures and across scales: their parameters can be accurately estimated using a few small-scale training runs, and used to estimate the performance at larger scales and unseen domain weights. The scaling laws allow to derive the optimal domain weights for any target domain under a given training budget (N,D), providing a principled alternative to costly trial-and-error methods.
PDF351July 16, 2025