DataDecide: Come Prevedere i Migliori Dati di Pre-addestramento con Piccoli Esperimenti
DataDecide: How to Predict Best Pretraining Data with Small Experiments
April 15, 2025
Autori: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI
Abstract
Poiché i modelli linguistici di grandi dimensioni sono costosi da preaddestrare su diversi dataset, utilizzare esperimenti su scala ridotta per decidere i dati è cruciale per ridurre i costi. Quali benchmark e metodi di decisione basati sulle prestazioni osservate su piccola scala predicono con maggiore accuratezza i dataset che producono i migliori modelli di grandi dimensioni? Per favorire un'esplorazione aperta di questa domanda, rilasciamo modelli, dati e valutazioni in DataDecide — la suite open più estesa di modelli su differenze nei dati e nella scala. Condividiamo esperimenti controllati di preaddestramento su 25 corpora con fonti, deduplicazione e filtraggio diversi fino a 100B token, dimensioni dei modelli fino a 1B parametri e 3 seed casuali. Scopriamo che la classifica dei modelli a una singola dimensione ridotta (ad esempio, 150M parametri) è una baseline solida per prevedere i migliori modelli alla nostra scala target più grande (1B) (~80% dei confronti corretti). Nessun metodo di legge di scala tra 8 baseline supera la frontiera decisionale di calcolo delle previsioni a singola scala, ma DataDecide può misurare i miglioramenti nelle future leggi di scala. Identifichiamo inoltre che l'uso di metriche di verosimiglianza continua come proxy in piccoli esperimenti rende benchmark come MMLU, ARC, HellaSwag, MBPP e HumanEval prevedibili per oltre l'80% alla scala target di 1B con solo lo 0,01% del calcolo.
English
Because large language models are expensive to pretrain on different
datasets, using smaller-scale experiments to decide on data is crucial for
reducing costs. Which benchmarks and methods of making decisions from observed
performance at small scale most accurately predict the datasets that yield the
best large models? To empower open exploration of this question, we release
models, data, and evaluations in DataDecide -- the most extensive open suite of
models over differences in data and scale. We conduct controlled pretraining
experiments across 25 corpora with differing sources, deduplication, and
filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random
seeds. We find that the ranking of models at a single, small size (e.g., 150M
parameters) is a strong baseline for predicting best models at our larger
target scale (1B) (~80% of com parisons correct). No scaling law methods among
8 baselines exceed the compute-decision frontier of single-scale predictions,
but DataDecide can measure improvement in future scaling laws. We also identify
that using continuous likelihood metrics as proxies in small experiments makes
benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable
at the target 1B scale with just 0.01% of the compute.Summary
AI-Generated Summary