OPUS: Hacia una Selección de Datos Eficiente y Fundamentada en el Preentrenamiento de Modelos de Lenguaje Grandes en Cada Iteración

Resumen

A medida que los textos públicos de alta calidad se aproximan al agotamiento, un fenómeno conocido como el Muro de Datos, el pre-entrenamiento está transitando de más *tokens* a mejores *tokens*. Sin embargo, los métodos existentes o bien dependen de filtros estáticos heurísticos que ignoran la dinámica del entrenamiento, o utilizan criterios dinámicos pero agnósticos al optimizador basados en gradientes brutos. Proponemos OPUS (Selección de Utilidad Proyectada Inducida por el Optimizador), un marco de selección dinámica de datos que define la utilidad en el espacio de actualización inducido por el optimizador. OPUS puntúa los candidatos proyectando sus actualizaciones efectivas, moldeadas por optimizadores modernos, sobre una dirección objetivo derivada de un *proxy* estable y de distribución interna. Para garantizar la escalabilidad, empleamos la técnica *Ghost* con *CountSketch* para la eficiencia computacional, y el muestreo de Boltzmann para la diversidad de datos, incurriendo en solo un 4,7% de sobrecarga computacional adicional. OPUS logra resultados notables en diversos corpus, niveles de calidad, optimizadores y escalas de modelos. En el pre-entrenamiento de GPT-2 Large/XL en FineWeb y FineWeb-Edu con 30B de *tokens*, OPUS supera a los baselines de nivel industrial e incluso al entrenamiento completo con 200B de *tokens*. Además, cuando se combina con filtros estáticos de nivel industrial, OPUS mejora aún más la eficiencia del pre-entrenamiento, incluso con datos de menor calidad. Asimismo, en el pre-entrenamiento continuo de Qwen3-8B-Base en SciencePedia, OPUS logra un rendimiento superior utilizando solo 0,5B de *tokens* en comparación con el entrenamiento completo con 3B de *tokens*, lo que demuestra ganancias significativas en eficiencia de datos en dominios especializados.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Hacia una Selección de Datos Eficiente y Fundamentada en el Preentrenamiento de Modelos de Lenguaje Grandes en Cada Iteración

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Resumen

Support