OPUS: Rumo a uma Seleção de Dados Eficiente e Fundamentada no Pré-treinamento de Modelos de Linguagem Grande em Cada Iteração

Resumo

À medida que os textos públicos de alta qualidade se aproximam da exaustão, um fenômeno conhecido como Muro de Dados, o pré-treinamento está a mudar de "mais tokens" para "melhores tokens". No entanto, os métodos existentes ou dependem de filtros estáticos heurísticos que ignoram a dinâmica do treino, ou usam critérios dinâmicos mas agnósticos ao otimizador, baseados em gradientes brutos. Propomos o OPUS (Optimizer-induced Projected Utility Selection), um quadro de seleção dinâmica de dados que define a utilidade no espaço de atualização induzido pelo otimizador. O OPUS classifica os candidatos projetando as suas atualizações efetivas, moldadas por otimizadores modernos, numa direção alvo derivada de um proxy estável e dentro da distribuição. Para garantir escalabilidade, empregamos a técnica Ghost com CountSketch para eficiência computacional, e amostragem de Boltzmann para diversidade de dados, incorrendo num overhead computacional adicional de apenas 4,7%. O OPUS alcança resultados notáveis em diversos corpora, níveis de qualidade, otimizadores e escalas de modelo. No pré-treinamento de GPT-2 Large/XL no FineWeb e FineWeb-Edu com 30B de tokens, o OPUS supera linhas de base de nível industrial e até mesmo o treino completo com 200B de tokens. Além disso, quando combinado com filtros estáticos de nível industrial, o OPUS melhora ainda mais a eficiência do pré-treinamento, mesmo com dados de qualidade inferior. Adicionalmente, no pré-treinamento continuado do Qwen3-8B-Base no SciencePedia, o OPUS alcança um desempenho superior usando apenas 0,5B de tokens em comparação com o treino completo com 3B de tokens, demonstrando ganhos significativos de eficiência de dados em domínios especializados.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Rumo a uma Seleção de Dados Eficiente e Fundamentada no Pré-treinamento de Modelos de Linguagem Grande em Cada Iteração

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Resumo

Support