OPUS: Naar efficiënte en principiële dataselectie in het vooraf trainen van grote taalmodellen bij elke iteratie

Samenvatting

Naarmate hoogwaardige publieke tekstbronnen uitgeput raken, een fenomeen bekend als de 'Data Wall', verschuift pre-training van meer tokens naar betere tokens. Bestaande methoden vertrouwen echter op heuristische statische filters die trainingsdynamiek negeren, of gebruiken dynamische maar optimizer-agnostische criteria gebaseerd op ruwe gradients. Wij stellen OPUS voor (Optimizer-induced Projected Utility Selection), een dynamisch dataselectiekader dat nuttigheid definieert in de door de optimizer geïnduceerde update-ruimte. OPUS scoort kandidaat-tokens door hun effectieve updates, gevormd door moderne optimizers, te projecteren op een doelrichting afgeleid van een stabiele, in-distributie proxy. Voor schaalbaarheid gebruiken we de Ghost-techniek met CountSketch voor computationele efficiëntie, en Boltzmann-steekproeven voor datadiversiteit, met slechts 4,7% extra rekenoverhead. OPUS behaalt opmerkelijke resultaten across diverse corpora, kwaliteitsniveaus, optimizers en modelschalen. In pre-training van GPT-2 Large/XL op FineWeb en FineWeb-Edu met 30B tokens, overtreft OPUS industriële benchmarks en zelfs volledige training met 200B tokens. Bovendien verbetert OPUS, gecombineerd met industriële statische filters, de pre-trainingsefficiëntie verder, zelfs met data van lagere kwaliteit. In voortgezette pre-training van Qwen3-8B-Base op SciencePedia bereikt OPUS superieure prestaties met slechts 0,5B tokens vergeleken met volledige training met 3B tokens, wat significante data-efficiëntiewinst aantoont in gespecialiseerde domeinen.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Naar efficiënte en principiële dataselectie in het vooraf trainen van grote taalmodellen bij elke iteratie

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Samenvatting

Support