Webscale-RL: Automatisierte Datenpipeline zur Skalierung von RL-Daten auf Pretraining-Niveau
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels
October 7, 2025
papers.authors: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben durch Imitationslernen auf umfangreichen Textkorpora bemerkenswerte Erfolge erzielt, doch dieses Paradigma schafft eine Kluft zwischen Training und Generierung und begrenzt robustes logisches Denken. Reinforcement Learning (RL) bietet eine dateneffizientere Lösung, die diese Lücke schließen kann, doch seine Anwendung wurde durch einen kritischen Datenengpass eingeschränkt: bestehende RL-Datensätze sind um Größenordnungen kleiner und weniger vielfältig als webweite Vorab-Trainingskorpora. Um dies zu beheben, führen wir die Webscale-RL-Pipeline ein, eine skalierbare Datenengine, die systematisch groß angelegte Vorab-Trainingsdokumente in Millionen von diversen, verifizierbaren Frage-Antwort-Paaren für RL umwandelt. Mit dieser Pipeline erstellen wir den Webscale-RL-Datensatz, der 1,2 Millionen Beispiele aus mehr als 9 Domänen enthält. Unsere Experimente zeigen, dass das auf diesem Datensatz trainierte Modell kontinuierliches Vortraining und starke Datenverfeinerungs-Baselines über eine Reihe von Benchmarks hinweg deutlich übertrifft. Insbesondere erweist sich das RL-Training mit unserem Datensatz als wesentlich effizienter und erreicht die Leistung von kontinuierlichem Vortraining mit bis zu 100-mal weniger Tokens. Unsere Arbeit präsentiert einen gangbaren Weg, RL auf das Niveau von Vortraining zu skalieren und damit leistungsfähigere und effizientere Sprachmodelle zu ermöglichen.
English
Large Language Models (LLMs) have achieved remarkable success through
imitation learning on vast text corpora, but this paradigm creates a
training-generation gap and limits robust reasoning. Reinforcement learning
(RL) offers a more data-efficient solution capable of bridging this gap, yet
its application has been constrained by a critical data bottleneck: existing RL
datasets are orders of magnitude smaller and less diverse than web-scale
pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a
scalable data engine that systematically converts large-scale pre-training
documents into millions of diverse, verifiable question-answer pairs for RL.
Using this pipeline, we construct the Webscale-RL dataset, containing 1.2
million examples across more than 9 domains. Our experiments show that the
model trained on this dataset significantly outperforms continual pretraining
and strong data refinement baselines across a suite of benchmarks. Notably, RL
training with our dataset proves substantially more efficient, achieving the
performance of continual pre-training with up to 100times fewer tokens. Our
work presents a viable path toward scaling RL to pre-training levels, enabling
more capable and efficient language models.