DataDecide: Hoe de beste voorafgaande trainingsdata te voorspellen met kleine experimenten
DataDecide: How to Predict Best Pretraining Data with Small Experiments
April 15, 2025
Auteurs: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI
Samenvatting
Omdat grote taalmodelen duur zijn om te pretrainen op verschillende datasets, is het gebruik van kleinschalige experimenten om beslissingen over data te nemen cruciaal om kosten te verlagen. Welke benchmarks en methoden om beslissingen te nemen op basis van waargenomen prestaties op kleine schaal voorspellen het meest nauwkeurig de datasets die de beste grote modellen opleveren? Om open verkenning van deze vraag mogelijk te maken, geven we modellen, data en evaluaties vrij in DataDecide — de meest uitgebreide open suite van modellen met verschillen in data en schaal. We voeren gecontroleerde pretrainingsexperimenten uit over 25 corpora met verschillende bronnen, deduplicatie en filtering tot 100B tokens, modelgroottes tot 1B parameters en 3 willekeurige seeds. We ontdekken dat de rangschikking van modellen op een enkele, kleine grootte (bijv. 150M parameters) een sterke basislijn is voor het voorspellen van de beste modellen op onze grotere doelschaal (1B) (~80% van de vergelijkingen correct). Geen van de 8 baseline-methoden voor schaalwetten overtreft de compute-beslissingsgrens van voorspellingen op één schaal, maar DataDecide kan verbeteringen in toekomstige schaalwetten meten. We identificeren ook dat het gebruik van continue waarschijnlijkheidsmetrieken als proxies in kleine experimenten benchmarks zoals MMLU, ARC, HellaSwag, MBPP en HumanEval voor meer dan 80% voorspelbaar maakt op de doelgrootte van 1B met slechts 0,01% van de benodigde rekenkracht.
English
Because large language models are expensive to pretrain on different
datasets, using smaller-scale experiments to decide on data is crucial for
reducing costs. Which benchmarks and methods of making decisions from observed
performance at small scale most accurately predict the datasets that yield the
best large models? To empower open exploration of this question, we release
models, data, and evaluations in DataDecide -- the most extensive open suite of
models over differences in data and scale. We conduct controlled pretraining
experiments across 25 corpora with differing sources, deduplication, and
filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random
seeds. We find that the ranking of models at a single, small size (e.g., 150M
parameters) is a strong baseline for predicting best models at our larger
target scale (1B) (~80% of com parisons correct). No scaling law methods among
8 baselines exceed the compute-decision frontier of single-scale predictions,
but DataDecide can measure improvement in future scaling laws. We also identify
that using continuous likelihood metrics as proxies in small experiments makes
benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable
at the target 1B scale with just 0.01% of the compute.Summary
AI-Generated Summary