OPUS: К эффективному и обоснованному отбору данных на каждой итерации предварительного обучения больших языковых моделей

Аннотация

По мере исчерпания высококачественных общедоступных текстов — явления, известного как «Стена данных», — претренинг смещается с большего количества токенов в сторону токенов более высокого качества. Однако существующие методы либо полагаются на эвристические статические фильтры, игнорирующие динамику обучения, либо используют динамические, но не зависящие от оптимизатора критерии, основанные на сырых градиентах. Мы предлагаем OPUS (Optimizer-induced Projected Utility Selection) — динамическую систему отбора данных, которая определяет полезность в пространстве обновлений, индуцированном оптимизатором. OPUS оценивает кандидатов, проецируя их эффективные обновления, сформированные современными оптимизаторами, на целевое направление, полученное из стабильного прокси-представителя из того же распределения. Для обеспечения масштабируемости мы используем технику Ghost с CountSketch для вычислительной эффективности и сэмплирование Больцмана для разнообразия данных, что добавляет всего 4,7% вычислительной нагрузки. OPUS демонстрирует выдающиеся результаты на различных корпусах, уровнях качества, оптимизаторах и масштабах моделей. При претренинге GPT-2 Large/XL на FineWeb и FineWeb-Edu с 30 млрд токенов OPUS превосходит промышленные базовые методы и даже полное обучение на 200 млрд токенов. Более того, при комбинации с промышленными статическими фильтрами OPUS дополнительно повышает эффективность претренинга, даже при работе с данными более низкого качества. Кроме того, при продолженном претренинге Qwen3-8B-Base на SciencePedia OPUS достигает превосходных результатов, используя всего 0,5 млрд токенов, по сравнению с полным обучением на 3 млрд токенов, что демонстрирует значительный выигрыш в эффективности использования данных в специализированных областях.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: К эффективному и обоснованному отбору данных на каждой итерации предварительного обучения больших языковых моделей

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Аннотация

Support