DataDecide: Cómo predecir los mejores datos de preentrenamiento con experimentos pequeños
DataDecide: How to Predict Best Pretraining Data with Small Experiments
April 15, 2025
Autores: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI
Resumen
Dado que los modelos de lenguaje de gran escala son costosos de preentrenar en diferentes conjuntos de datos, utilizar experimentos a menor escala para decidir sobre los datos es crucial para reducir costos. ¿Qué puntos de referencia y métodos para tomar decisiones basadas en el rendimiento observado a pequeña escala predicen con mayor precisión los conjuntos de datos que producen los mejores modelos grandes? Para fomentar la exploración abierta de esta pregunta, publicamos modelos, datos y evaluaciones en DataDecide, el conjunto más extenso y abierto de modelos que abarca diferencias en datos y escala. Realizamos experimentos controlados de preentrenamiento en 25 corpus con diferentes fuentes, deduplicación y filtrado, hasta 100 mil millones de tokens, tamaños de modelo de hasta 1 mil millones de parámetros y 3 semillas aleatorias. Descubrimos que la clasificación de modelos en un único tamaño pequeño (por ejemplo, 150 millones de parámetros) es una línea base sólida para predecir los mejores modelos en nuestra escala objetivo más grande (1 mil millones) (~80% de las comparaciones correctas). Ninguno de los 8 métodos de leyes de escalamiento supera la frontera de decisión computacional de las predicciones a escala única, pero DataDecide puede medir mejoras en futuras leyes de escalamiento. También identificamos que el uso de métricas de verosimilitud continua como proxies en experimentos pequeños hace que los puntos de referencia, incluyendo MMLU, ARC, HellaSwag, MBPP y HumanEval, sean predecibles en más del 80% en la escala objetivo de 1 mil millones con solo el 0.01% del cómputo.
English
Because large language models are expensive to pretrain on different
datasets, using smaller-scale experiments to decide on data is crucial for
reducing costs. Which benchmarks and methods of making decisions from observed
performance at small scale most accurately predict the datasets that yield the
best large models? To empower open exploration of this question, we release
models, data, and evaluations in DataDecide -- the most extensive open suite of
models over differences in data and scale. We conduct controlled pretraining
experiments across 25 corpora with differing sources, deduplication, and
filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random
seeds. We find that the ranking of models at a single, small size (e.g., 150M
parameters) is a strong baseline for predicting best models at our larger
target scale (1B) (~80% of com parisons correct). No scaling law methods among
8 baselines exceed the compute-decision frontier of single-scale predictions,
but DataDecide can measure improvement in future scaling laws. We also identify
that using continuous likelihood metrics as proxies in small experiments makes
benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable
at the target 1B scale with just 0.01% of the compute.Summary
AI-Generated Summary