OPUS: Verso una selezione dei dati efficiente e basata su principi nel pre-addestramento di grandi modelli linguistici in ogni iterazione

Abstract

Con l'esaurimento dei testi pubblici di alta qualità, un fenomeno noto come "Muro dei Dati", l'addestramento preliminare si sta spostando da un maggior numero di token a token di qualità superiore. Tuttavia, i metodi esistenti si basano su filtri statici euristici che ignorano le dinamiche di addestramento, oppure utilizzano criteri dinamici ma agnostici rispetto all'ottimizzatore, basati su gradienti grezzi. Proponiamo OPUS (Optimizer-induced Projected Utility Selection), un framework di selezione dinamica dei dati che definisce l'utilità nello spazio di aggiornamento indotto dall'ottimizzatore. OPUS assegna un punteggio ai candidati proiettando i loro aggiornamenti efficaci, modellati dagli ottimizzatori moderni, su una direzione target derivata da un proxy stabile e in-distribution. Per garantire la scalabilità, utilizziamo la tecnica Ghost con CountSketch per l'efficienza computazionale e il campionamento di Boltzmann per la diversità dei dati, con un sovraccarico computazionale aggiuntivo di appena il 4,7%. OPUS ottiene risultati notevoli su vari corpora, livelli di qualità, ottimizzatori e scale di modelli. Nell'addestramento preliminare di GPT-2 Large/XL su FineWeb e FineWeb-Edu con 30 miliardi di token, OPUS supera i benchmark di livello industriale e persino l'addestramento completo con 200 miliardi di token. Inoltre, se combinato con filtri statici di livello industriale, OPUS migliora ulteriormente l'efficienza dell'addestramento preliminare, anche con dati di qualità inferiore. Inoltre, nel continuo addestramento preliminare di Qwen3-8B-Base su SciencePedia, OPUS raggiunge prestazioni superiori utilizzando solo 0,5 miliardi di token rispetto all'addestramento completo con 3 miliardi di token, dimostrando significativi guadagni di efficienza dei dati in domini specializzati.

English

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Verso una selezione dei dati efficiente e basata su principi nel pre-addestramento di grandi modelli linguistici in ogni iterazione

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Abstract

Support