ChatPaper.aiChatPaper

Skalierungsgesetze für optimale Datenmischungen

Scaling Laws for Optimal Data Mixtures

July 12, 2025
papers.authors: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI

papers.abstract

Große Foundation-Modelle werden typischerweise mit Daten aus mehreren Domänen trainiert, wobei die Datenmischung – der Anteil jeder verwendeten Domäne – eine entscheidende Rolle für die Modellleistung spielt. Der Standardansatz zur Auswahl dieser Mischung beruht auf Versuch und Irrtum, was für groß angelegtes Pretraining unpraktisch wird. Wir schlagen eine systematische Methode vor, um die optimale Datenmischung für jede Zieldomäne mithilfe von Skalierungsgesetzen zu bestimmen. Unser Ansatz sagt den Verlust eines Modells der Größe N, das mit D Tokens und einem spezifischen Domänengewichtsvektor h trainiert wurde, präzise voraus. Wir validieren die Universalität dieser Skalierungsgesetze, indem wir ihre Vorhersagekraft in drei verschiedenen und groß angelegten Settings demonstrieren: Pretraining von großen Sprachmodellen (LLM), nativen multimodalen Modellen (NMM) und großen Vision-Modellen (LVM). Wir zeigen weiterhin, dass diese Skalierungsgesetze auf neue Datenmischungen und über verschiedene Skalen hinweg extrapolieren können: Ihre Parameter können mithilfe einiger kleiner Trainingsläufe präzise geschätzt und verwendet werden, um die Leistung bei größeren Skalen und unbekannten Domänengewichten zu schätzen. Die Skalierungsgesetze ermöglichen es, die optimalen Domänengewichte für jede Zieldomäne unter einem gegebenen Trainingsbudget (N, D) abzuleiten, und bieten somit eine prinzipielle Alternative zu kostspieligen Trial-and-Error-Methoden.
English
Large foundation models are typically trained on data from multiple domains, with the data mixture--the proportion of each domain used--playing a critical role in model performance. The standard approach to selecting this mixture relies on trial and error, which becomes impractical for large-scale pretraining. We propose a systematic method to determine the optimal data mixture for any target domain using scaling laws. Our approach accurately predicts the loss of a model of size N trained with D tokens and a specific domain weight vector h. We validate the universality of these scaling laws by demonstrating their predictive power in three distinct and large-scale settings: large language model (LLM), native multimodal model (NMM), and large vision models (LVM) pretraining. We further show that these scaling laws can extrapolate to new data mixtures and across scales: their parameters can be accurately estimated using a few small-scale training runs, and used to estimate the performance at larger scales and unseen domain weights. The scaling laws allow to derive the optimal domain weights for any target domain under a given training budget (N,D), providing a principled alternative to costly trial-and-error methods.
PDF271July 16, 2025