DataDecide: Como Prever os Melhores Dados de Pré-treinamento com Pequenos Experimentos
DataDecide: How to Predict Best Pretraining Data with Small Experiments
April 15, 2025
Autores: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI
Resumo
Como os grandes modelos de linguagem são caros para pré-treinar em diferentes conjuntos de dados, usar experimentos em menor escala para decidir sobre os dados é crucial para reduzir custos. Quais benchmarks e métodos de tomada de decisão a partir do desempenho observado em pequena escala preveem com maior precisão os conjuntos de dados que produzem os melhores modelos em grande escala? Para permitir uma exploração aberta dessa questão, lançamos modelos, dados e avaliações no DataDecide — o mais extenso conjunto aberto de modelos sobre diferenças em dados e escala. Realizamos experimentos controlados de pré-treinamento em 25 corpora com diferentes fontes, deduplicação e filtragem de até 100 bilhões de tokens, tamanhos de modelo de até 1 bilhão de parâmetros e 3 sementes aleatórias. Descobrimos que a classificação dos modelos em um único tamanho pequeno (por exemplo, 150 milhões de parâmetros) é uma linha de base forte para prever os melhores modelos em nossa escala alvo maior (1 bilhão) (~80% das comparações corretas). Nenhum método de lei de escalonamento entre 8 linhas de base excede a fronteira de decisão de computação das previsões em escala única, mas o DataDecide pode medir melhorias em futuras leis de escalonamento. Também identificamos que o uso de métricas de verossimilhança contínua como proxies em pequenos experimentos torna benchmarks como MMLU, ARC, HellaSwag, MBPP e HumanEval mais de 80% previsíveis na escala alvo de 1 bilhão com apenas 0,01% da computação.
English
Because large language models are expensive to pretrain on different
datasets, using smaller-scale experiments to decide on data is crucial for
reducing costs. Which benchmarks and methods of making decisions from observed
performance at small scale most accurately predict the datasets that yield the
best large models? To empower open exploration of this question, we release
models, data, and evaluations in DataDecide -- the most extensive open suite of
models over differences in data and scale. We conduct controlled pretraining
experiments across 25 corpora with differing sources, deduplication, and
filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random
seeds. We find that the ranking of models at a single, small size (e.g., 150M
parameters) is a strong baseline for predicting best models at our larger
target scale (1B) (~80% of com parisons correct). No scaling law methods among
8 baselines exceed the compute-decision frontier of single-scale predictions,
but DataDecide can measure improvement in future scaling laws. We also identify
that using continuous likelihood metrics as proxies in small experiments makes
benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable
at the target 1B scale with just 0.01% of the compute.Summary
AI-Generated Summary