DataDecide: Wie man die besten Vortrainingsdaten mit kleinen Experimenten vorhersagt
DataDecide: How to Predict Best Pretraining Data with Small Experiments
April 15, 2025
Autoren: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI
Zusammenfassung
Da das Pretraining großer Sprachmodelle auf verschiedenen Datensätzen kostspielig ist, ist die Verwendung von kleineren Experimenten zur Entscheidungsfindung über Daten entscheidend, um Kosten zu reduzieren. Welche Benchmarks und Methoden zur Entscheidungsfindung basierend auf beobachteter Leistung im kleinen Maßstab sagen die Datensätze, die die besten großen Modelle liefern, am genauesten voraus? Um die offene Erforschung dieser Frage zu ermöglichen, veröffentlichen wir Modelle, Daten und Auswertungen in DataDecide – die umfangreichste offene Sammlung von Modellen mit Unterschieden in Daten und Skalierung. Wir führen kontrollierte Pretraining-Experimente über 25 Korpora mit unterschiedlichen Quellen, Deduplizierung und Filterung bis zu 100 Milliarden Tokens, Modellgrößen bis zu 1 Milliarde Parametern und 3 zufälligen Seeds durch. Wir stellen fest, dass die Rangfolge der Modelle bei einer einzigen, kleinen Größe (z.B. 150 Millionen Parameter) eine starke Baseline für die Vorhersage der besten Modelle in unserem größeren Zielmaßstab (1 Milliarde) ist (~80 % der Vergleiche korrekt). Keine der 8 Baseline-Methoden zur Skalierungsgesetzgebung übertrifft die Compute-Entscheidungsgrenze von Vorhersagen auf einer einzigen Skala, aber DataDecide kann Verbesserungen in zukünftigen Skalierungsgesetzen messen. Wir identifizieren auch, dass die Verwendung kontinuierlicher Wahrscheinlichkeitsmetriken als Stellvertreter in kleinen Experimenten Benchmarks wie MMLU, ARC, HellaSwag, MBPP und HumanEval zu mehr als 80 % vorhersagbar macht, und dies bei nur 0,01 % des Rechenaufwands im Zielmaßstab von 1 Milliarde.
English
Because large language models are expensive to pretrain on different
datasets, using smaller-scale experiments to decide on data is crucial for
reducing costs. Which benchmarks and methods of making decisions from observed
performance at small scale most accurately predict the datasets that yield the
best large models? To empower open exploration of this question, we release
models, data, and evaluations in DataDecide -- the most extensive open suite of
models over differences in data and scale. We conduct controlled pretraining
experiments across 25 corpora with differing sources, deduplication, and
filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random
seeds. We find that the ranking of models at a single, small size (e.g., 150M
parameters) is a strong baseline for predicting best models at our larger
target scale (1B) (~80% of com parisons correct). No scaling law methods among
8 baselines exceed the compute-decision frontier of single-scale predictions,
but DataDecide can measure improvement in future scaling laws. We also identify
that using continuous likelihood metrics as proxies in small experiments makes
benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable
at the target 1B scale with just 0.01% of the compute.Summary
AI-Generated Summary