ChatPaper.aiChatPaper

Webscale-RL: 強化学習データを事前学習レベルにスケーリングするための自動化データパイプライン

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

October 7, 2025
著者: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

要旨

大規模言語モデル(LLMs)は、膨大なテキストコーパスに対する模倣学習を通じて顕著な成功を収めてきましたが、このパラダイムは学習と生成の間にギャップを生み出し、堅牢な推論を制限しています。強化学習(RL)は、このギャップを埋めることができるよりデータ効率の良い解決策を提供しますが、その応用は重要なデータボトルネックによって制約されています:既存のRLデータセットは、ウェブスケールの事前学習コーパスに比べて桁違いに小さく、多様性に欠けています。この問題に対処するため、我々はWebscale-RLパイプラインを導入します。これは、大規模な事前学習文書を体系的に数百万の多様で検証可能な質問-回答ペアに変換するスケーラブルなデータエンジンです。このパイプラインを使用して、我々はWebscale-RLデータセットを構築し、9以上のドメインにわたる120万の例を含んでいます。我々の実験では、このデータセットで訓練されたモデルが、一連のベンチマークにおいて、継続的な事前学習や強力なデータ精選ベースラインを大幅に上回ることを示しています。特に、我々のデータセットを用いたRL訓練は、継続的な事前学習の性能を最大100倍少ないトークン数で達成するなど、大幅に効率的であることが証明されました。我々の研究は、RLを事前学習レベルにスケーリングするための実現可能な道筋を示し、より能力が高く効率的な言語モデルを可能にします。
English
Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.
PDF312October 13, 2025