ChatPaper.aiChatPaper

DataDecide: Wie man die besten Vortrainingsdaten mit kleinen Experimenten vorhersagt

DataDecide: How to Predict Best Pretraining Data with Small Experiments

April 15, 2025
Autoren: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI

Zusammenfassung

Da das Pretraining großer Sprachmodelle auf verschiedenen Datensätzen kostspielig ist, ist die Verwendung von kleineren Experimenten zur Entscheidungsfindung über Daten entscheidend, um Kosten zu reduzieren. Welche Benchmarks und Methoden zur Entscheidungsfindung basierend auf beobachteter Leistung im kleinen Maßstab sagen die Datensätze, die die besten großen Modelle liefern, am genauesten voraus? Um die offene Erforschung dieser Frage zu ermöglichen, veröffentlichen wir Modelle, Daten und Auswertungen in DataDecide – die umfangreichste offene Sammlung von Modellen mit Unterschieden in Daten und Skalierung. Wir führen kontrollierte Pretraining-Experimente über 25 Korpora mit unterschiedlichen Quellen, Deduplizierung und Filterung bis zu 100 Milliarden Tokens, Modellgrößen bis zu 1 Milliarde Parametern und 3 zufälligen Seeds durch. Wir stellen fest, dass die Rangfolge der Modelle bei einer einzigen, kleinen Größe (z.B. 150 Millionen Parameter) eine starke Baseline für die Vorhersage der besten Modelle in unserem größeren Zielmaßstab (1 Milliarde) ist (~80 % der Vergleiche korrekt). Keine der 8 Baseline-Methoden zur Skalierungsgesetzgebung übertrifft die Compute-Entscheidungsgrenze von Vorhersagen auf einer einzigen Skala, aber DataDecide kann Verbesserungen in zukünftigen Skalierungsgesetzen messen. Wir identifizieren auch, dass die Verwendung kontinuierlicher Wahrscheinlichkeitsmetriken als Stellvertreter in kleinen Experimenten Benchmarks wie MMLU, ARC, HellaSwag, MBPP und HumanEval zu mehr als 80 % vorhersagbar macht, und dies bei nur 0,01 % des Rechenaufwands im Zielmaßstab von 1 Milliarde.
English
Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

Summary

AI-Generated Summary

PDF172April 16, 2025