OPUS : Vers une sélection de données efficace et méthodique dans le pré-entraînement des grands modèles de langage à chaque itération

papers.abstract

Face à l’épuisement progressif des textes publics de haute qualité — un phénomène souvent qualifié de « mur de données » — l’entraînement préalable s’oriente désormais moins vers l’augmentation du nombre de tokens que vers la sélection de tokens de meilleure qualité. Cependant, les méthodes existantes reposent soit sur des filtres statiques heuristiques ignorant la dynamique d’apprentissage, soit sur des critères dynamiques mais indépendants de l’optimiseur, basés sur des gradients bruts. Nous proposons OPUS (Optimizer-induced Projected Utility Selection), un cadre de sélection dynamique des données qui définit l’utilité dans l’espace de mise à jour induit par l’optimiseur. OPUS évalue les candidats en projetant leurs mises à jour effectives — façonnées par les optimiseurs modernes — sur une direction cible dérivée d’un proxy stable et de distribution interne. Pour garantir l’extensibilité, nous employons la technique Ghost avec CountSketch afin de réduire la charge computationnelle, et un échantillonnage de Boltzmann pour préserver la diversité des données, n’ajoutant qu’un surcoût calculatoire de 4,7 %. OPUS obtient des résultats remarquables sur divers corpus, niveaux de qualité, optimiseurs et échelles de modèles. Lors de l’entraînement préalable de GPT-2 Large/XL sur FineWeb et FineWeb-Edu avec 30 milliards de tokens, OPUS surpasse les approches de référence de niveau industriel, et même un entraînement complet sur 200 milliards de tokens. De plus, combiné à des filtres statiques industriels, OPUS améliore encore l’efficacité de l’entraînement, y compris avec des données de moindre qualité. Enfin, lors de l’entraînement continu de Qwen3-8B-Base sur SciencePedia, OPUS atteint des performances supérieures avec seulement 0,5 milliard de tokens, contre 3 milliards pour l’entraînement complet, démontrant ainsi un gain significatif en efficacité des données dans des domaines spécialisés.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS : Vers une sélection de données efficace et méthodique dans le pré-entraînement des grands modèles de langage à chaque itération

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

papers.abstract

Support