Webscale-RL: Pipeline Automatico per il Ridimensionamento dei Dati RL a Livelli di Pretraining
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels
October 7, 2025
Autori: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
Abstract
I Large Language Model (LLM) hanno ottenuto un successo straordinario attraverso l'apprendimento per imitazione su vasti corpora testuali, ma questo paradigma crea un divario tra addestramento e generazione e limita il ragionamento robusto. L'apprendimento per rinforzo (RL) offre una soluzione più efficiente in termini di dati, capace di colmare questo divario, ma la sua applicazione è stata limitata da un collo di bottiglia critico: i dataset RL esistenti sono ordini di grandezza più piccoli e meno diversificati rispetto ai corpora di pre-addestramento su scala web. Per affrontare questo problema, introduciamo la pipeline Webscale-RL, un motore di dati scalabile che converte sistematicamente documenti di pre-addestramento su larga scala in milioni di coppie domanda-risposta diversificate e verificabili per il RL. Utilizzando questa pipeline, costruiamo il dataset Webscale-RL, contenente 1,2 milioni di esempi in più di 9 domini. I nostri esperimenti dimostrano che il modello addestrato su questo dataset supera significativamente il pre-addestramento continuo e forti baseline di raffinamento dei dati su una serie di benchmark. In particolare, l'addestramento RL con il nostro dataset si rivela sostanzialmente più efficiente, raggiungendo le prestazioni del pre-addestramento continuo con fino a 100 volte meno token. Il nostro lavoro presenta un percorso praticabile per scalare il RL ai livelli di pre-addestramento, consentendo modelli linguistici più capaci ed efficienti.
English
Large Language Models (LLMs) have achieved remarkable success through
imitation learning on vast text corpora, but this paradigm creates a
training-generation gap and limits robust reasoning. Reinforcement learning
(RL) offers a more data-efficient solution capable of bridging this gap, yet
its application has been constrained by a critical data bottleneck: existing RL
datasets are orders of magnitude smaller and less diverse than web-scale
pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a
scalable data engine that systematically converts large-scale pre-training
documents into millions of diverse, verifiable question-answer pairs for RL.
Using this pipeline, we construct the Webscale-RL dataset, containing 1.2
million examples across more than 9 domains. Our experiments show that the
model trained on this dataset significantly outperforms continual pretraining
and strong data refinement baselines across a suite of benchmarks. Notably, RL
training with our dataset proves substantially more efficient, achieving the
performance of continual pre-training with up to 100times fewer tokens. Our
work presents a viable path toward scaling RL to pre-training levels, enabling
more capable and efficient language models.