OPUS: Auf dem Weg zu effizienter und prinzipienbasierter Datenauswahl im Pre-training großer Sprachmodelle in jeder Iteration

papers.abstract

Da hochwertige öffentliche Texte zunehmend erschöpft sind – ein Phänomen, das als „Datenmauer“ bekannt ist – verlagert sich das Pre-Training von mehr Tokens hin zu besseren Tokens. Bisherige Methoden verlassen sich jedoch entweder auf heuristische, statische Filter, die Trainingsdynamiken ignorieren, oder verwenden dynamische, aber optimiererunabhängige Kriterien auf Basis roher Gradienten. Wir schlagen OPUS (Optimizer-induced Projected Utility Selection) vor, einen dynamischen Datenauswahlrahmen, der den Nutzen im optimiererinduzierten Aktualisierungsraum definiert. OPUS bewertet Kandidaten, indem es deren effektive Aktualisierungen, geprägt durch moderne Optimierer, auf eine Zielrichtung projiziert, die von einem stabilen, in-distribution Proxy abgeleitet wird. Um Skalierbarkeit zu gewährleisten, setzen wir die Ghost-Technik mit CountSketch für recheneffiziente Projektionen ein und Boltzmann-Sampling für Datenvielfalt, was nur einen zusätzlichen Rechenaufwand von 4,7 % verursacht. OPUS erzielt bemerkenswerte Ergebnisse über verschiedene Korpora, Qualitätsstufen, Optimierer und Modellgrößen hinweg. Beim Pre-Training von GPT-2 Large/XL auf FineWeb und FineWeb-Edu mit 30 Mrd. Tokens übertrifft OPUS industrietaugliche Baseline-Methoden und sogar das vollständige Training mit 200 Mrd. Tokens. Zudem verbessert OPUS in Kombination mit industrietauglichen statischen Filtern die Pre-Training-Effizienz weiter, selbst bei Daten geringerer Qualität. Beim fortgesetzten Pre-Training von Qwen3-8B-Base auf SciencePedia erzielt OPUS mit nur 0,5 Mrd. Tokens eine überlegene Leistung im Vergleich zum vollständigen Training mit 3 Mrd. Tokens, was deutliche Effizienzgewinne in spezialisierten Domänen demonstriert.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Auf dem Weg zu effizienter und prinzipienbasierter Datenauswahl im Pre-training großer Sprachmodelle in jeder Iteration

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

papers.abstract

Support