ChatPaper.aiChatPaper

DataDecide : Comment prédire les meilleures données de pré-entraînement avec de petites expériences

DataDecide: How to Predict Best Pretraining Data with Small Experiments

April 15, 2025
Auteurs: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI

Résumé

Comme les grands modèles de langage sont coûteux à pré-entraîner sur différents ensembles de données, il est crucial d'utiliser des expériences à plus petite échelle pour décider des données afin de réduire les coûts. Quels benchmarks et méthodes de prise de décision basés sur les performances observées à petite échelle prédisent le plus précisément les ensembles de données qui produisent les meilleurs grands modèles ? Pour permettre une exploration ouverte de cette question, nous publions des modèles, des données et des évaluations dans DataDecide -- la suite ouverte la plus complète de modèles basés sur des différences de données et d'échelle. Nous menons des expériences de pré-entraînement contrôlées sur 25 corpus avec des sources, des déduplications et des filtrages différents, allant jusqu'à 100 milliards de tokens, des tailles de modèles allant jusqu'à 1 milliard de paramètres, et 3 graines aléatoires. Nous constatons que le classement des modèles à une seule petite taille (par exemple, 150 millions de paramètres) constitue une base solide pour prédire les meilleurs modèles à notre échelle cible plus grande (1 milliard) (~80% des comparaisons correctes). Aucune méthode de loi d'échelle parmi 8 baselines ne dépasse la frontière de décision en termes de calcul des prédictions à une seule échelle, mais DataDecide peut mesurer les améliorations futures des lois d'échelle. Nous identifions également que l'utilisation de métriques de vraisemblance continue comme proxies dans de petites expériences rend les benchmarks incluant MMLU, ARC, HellaSwag, MBPP et HumanEval prédictibles à plus de 80% à l'échelle cible de 1 milliard avec seulement 0,01% du calcul.
English
Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

Summary

AI-Generated Summary

PDF172April 16, 2025