DataDecide: Hoe de beste voorafgaande trainingsdata te voorspellen met kleine experimenten

Samenvatting

Omdat grote taalmodelen duur zijn om te pretrainen op verschillende datasets, is het gebruik van kleinschalige experimenten om beslissingen over data te nemen cruciaal om kosten te verlagen. Welke benchmarks en methoden om beslissingen te nemen op basis van waargenomen prestaties op kleine schaal voorspellen het meest nauwkeurig de datasets die de beste grote modellen opleveren? Om open verkenning van deze vraag mogelijk te maken, geven we modellen, data en evaluaties vrij in DataDecide — de meest uitgebreide open suite van modellen met verschillen in data en schaal. We voeren gecontroleerde pretrainingsexperimenten uit over 25 corpora met verschillende bronnen, deduplicatie en filtering tot 100B tokens, modelgroottes tot 1B parameters en 3 willekeurige seeds. We ontdekken dat de rangschikking van modellen op een enkele, kleine grootte (bijv. 150M parameters) een sterke basislijn is voor het voorspellen van de beste modellen op onze grotere doelschaal (1B) (~80% van de vergelijkingen correct). Geen van de 8 baseline-methoden voor schaalwetten overtreft de compute-beslissingsgrens van voorspellingen op één schaal, maar DataDecide kan verbeteringen in toekomstige schaalwetten meten. We identificeren ook dat het gebruik van continue waarschijnlijkheidsmetrieken als proxies in kleine experimenten benchmarks zoals MMLU, ARC, HellaSwag, MBPP en HumanEval voor meer dan 80% voorspelbaar maakt op de doelgrootte van 1B met slechts 0,01% van de benodigde rekenkracht.

English

Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

DataDecide: Hoe de beste voorafgaande trainingsdata te voorspellen met kleine experimenten

DataDecide: How to Predict Best Pretraining Data with Small Experiments

Samenvatting

Support