Webscale-RL: Pipeline Automatico per il Ridimensionamento dei Dati RL a Livelli di Pretraining

Abstract

I Large Language Model (LLM) hanno ottenuto un successo straordinario attraverso l'apprendimento per imitazione su vasti corpora testuali, ma questo paradigma crea un divario tra addestramento e generazione e limita il ragionamento robusto. L'apprendimento per rinforzo (RL) offre una soluzione più efficiente in termini di dati, capace di colmare questo divario, ma la sua applicazione è stata limitata da un collo di bottiglia critico: i dataset RL esistenti sono ordini di grandezza più piccoli e meno diversificati rispetto ai corpora di pre-addestramento su scala web. Per affrontare questo problema, introduciamo la pipeline Webscale-RL, un motore di dati scalabile che converte sistematicamente documenti di pre-addestramento su larga scala in milioni di coppie domanda-risposta diversificate e verificabili per il RL. Utilizzando questa pipeline, costruiamo il dataset Webscale-RL, contenente 1,2 milioni di esempi in più di 9 domini. I nostri esperimenti dimostrano che il modello addestrato su questo dataset supera significativamente il pre-addestramento continuo e forti baseline di raffinamento dei dati su una serie di benchmark. In particolare, l'addestramento RL con il nostro dataset si rivela sostanzialmente più efficiente, raggiungendo le prestazioni del pre-addestramento continuo con fino a 100 volte meno token. Il nostro lavoro presenta un percorso praticabile per scalare il RL ai livelli di pre-addestramento, consentendo modelli linguistici più capaci ed efficienti.

English

Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.

Webscale-RL: Pipeline Automatico per il Ridimensionamento dei Dati RL a Livelli di Pretraining

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Abstract

Support