ChatPaper.aiChatPaper

Webscale-RL: Geautomatiseerde Data Pipeline voor het Opschalen van RL-gegevens naar Pretrainingsniveaus

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

October 7, 2025
Auteurs: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald door imitatieleren op enorme tekstcorpora, maar dit paradigma creëert een kloof tussen training en generatie en beperkt robuust redeneren. Reinforcement learning (RL) biedt een meer data-efficiënte oplossing die deze kloof kan overbruggen, maar de toepassing ervan is beperkt door een kritisch dataknelpunt: bestaande RL-datasets zijn ordes van grootte kleiner en minder divers dan web-schaal pre-trainingscorpora. Om dit aan te pakken, introduceren we de Webscale-RL-pijplijn, een schaalbare data-engine die systematisch grootschalige pre-trainingsdocumenten omzet in miljoenen diverse, verifieerbare vraag-antwoordparen voor RL. Met behulp van deze pijplijn construeren we de Webscale-RL-dataset, die 1,2 miljoen voorbeelden bevat uit meer dan 9 domeinen. Onze experimenten tonen aan dat het model dat op deze dataset is getraind, aanzienlijk beter presteert dan voortgezette pre-training en sterke data-verfijning baselines over een reeks benchmarks. Opmerkelijk is dat RL-training met onze dataset aanzienlijk efficiënter blijkt, waarbij de prestaties van voortgezette pre-training worden bereikt met tot wel 100 keer minder tokens. Ons werk biedt een haalbare route naar het opschalen van RL naar pre-trainingsniveaus, waardoor krachtigere en efficiëntere taalmodellen mogelijk worden.
English
Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.
PDF312October 13, 2025