ChatPaper.aiChatPaper

웹스케일-RL: 강화학습 데이터를 사전 학습 수준으로 확장하기 위한 자동화된 데이터 파이프라인

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

October 7, 2025
저자: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

초록

대규모 언어 모델(LLMs)은 방대한 텍스트 코퍼스에 대한 모방 학습을 통해 놀라운 성과를 거두었지만, 이러한 패러다임은 학습-생성 간의 격차를 만들고 견고한 추론을 제한합니다. 강화 학습(RL)은 이 격차를 해결할 수 있는 더 데이터 효율적인 솔루션을 제공하지만, 그 적용은 중요한 데이터 병목 현상으로 인해 제한되어 왔습니다: 기존 RL 데이터셋은 웹 규모의 사전 학습 코퍼스에 비해 크기와 다양성 면에서 수십 배나 작습니다. 이를 해결하기 위해, 우리는 Webscale-RL 파이프라인을 소개합니다. 이는 대규모 사전 학습 문서를 체계적으로 수백만 개의 다양한, 검증 가능한 질문-답변 쌍으로 변환하여 RL에 활용할 수 있는 확장 가능한 데이터 엔진입니다. 이 파이프라인을 사용하여, 우리는 9개 이상의 도메인에 걸쳐 120만 개의 예시를 포함하는 Webscale-RL 데이터셋을 구축했습니다. 우리의 실험은 이 데이터셋으로 훈련된 모델이 일련의 벤치마크에서 지속적인 사전 학습과 강력한 데이터 정제 기준선을 크게 능가함을 보여줍니다. 특히, 우리의 데이터셋을 사용한 RL 훈련은 상당히 더 효율적이며, 최대 100배 적은 토큰으로 지속적인 사전 학습의 성능을 달성합니다. 우리의 작업은 RL을 사전 학습 수준으로 확장하는 실현 가능한 길을 제시하며, 더 능력 있고 효율적인 언어 모델을 가능하게 합니다.
English
Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.
PDF312October 13, 2025