ChatPaper.aiChatPaper

DataDecide: Как предсказать оптимальные данные для предварительного обучения с помощью небольших экспериментов

DataDecide: How to Predict Best Pretraining Data with Small Experiments

April 15, 2025
Авторы: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
cs.AI

Аннотация

Поскольку предварительное обучение больших языковых моделей на различных наборах данных является дорогостоящим, использование экспериментов меньшего масштаба для выбора данных имеет решающее значение для снижения затрат. Какие бенчмарки и методы принятия решений на основе наблюдаемой производительности в малом масштабе наиболее точно предсказывают наборы данных, которые дают наилучшие результаты для крупных моделей? Чтобы способствовать открытому исследованию этого вопроса, мы выпускаем модели, данные и оценки в рамках DataDecide — наиболее обширного открытого набора моделей, учитывающего различия в данных и масштабе. Мы проводим контролируемые эксперименты по предварительному обучению на 25 корпусах с различными источниками, дедупликацией и фильтрацией до 100 миллиардов токенов, размерами моделей до 1 миллиарда параметров и 3 случайными начальными значениями. Мы обнаруживаем, что ранжирование моделей на одном малом размере (например, 150 миллионов параметров) является сильным базовым подходом для предсказания лучших моделей на нашем целевом крупном масштабе (1 миллиард) (около 80% сравнений верны). Ни один из 8 базовых методов, основанных на законах масштабирования, не превосходит границу принятия решений на основе вычислений, установленную предсказаниями на одном масштабе, но DataDecide позволяет измерять улучшения в будущих законах масштабирования. Мы также выяснили, что использование непрерывных метрик правдоподобия в качестве прокси в малых экспериментах делает бенчмарки, включая MMLU, ARC, HellaSwag, MBPP и HumanEval, предсказуемыми более чем на 80% на целевом масштабе 1 миллиарда параметров при использовании всего 0,01% вычислительных ресурсов.
English
Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

Summary

AI-Generated Summary

PDF172April 16, 2025