ChatPaper.aiChatPaper

Webscale-RL : Pipeline de données automatisé pour la mise à l'échelle des données d'apprentissage par renforcement aux niveaux de pré-entraînement

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

October 7, 2025
papers.authors: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) ont obtenu un succès remarquable grâce à l'apprentissage par imitation sur de vastes corpus textuels, mais ce paradigme crée un écart entre l'entraînement et la génération, limitant ainsi le raisonnement robuste. L'apprentissage par renforcement (RL) offre une solution plus efficace en termes de données, capable de combler cet écart, mais son application a été limitée par un goulot d'étranglement critique : les ensembles de données RL existants sont des ordres de grandeur plus petits et moins diversifiés que les corpus de pré-entraînement à l'échelle du web. Pour remédier à cela, nous introduisons la pipeline Webscale-RL, un moteur de données scalable qui convertit systématiquement des documents de pré-entraînement à grande échelle en millions de paires question-réponse diversifiées et vérifiables pour le RL. En utilisant cette pipeline, nous construisons l'ensemble de données Webscale-RL, contenant 1,2 million d'exemples couvrant plus de 9 domaines. Nos expériences montrent que le modèle entraîné sur cet ensemble de données surpasse significativement le pré-entraînement continu et des bases de référence solides en raffinement de données sur une série de benchmarks. Notamment, l'entraînement RL avec notre ensemble de données s'avère substantiellement plus efficace, atteignant les performances du pré-entraînement continu avec jusqu'à 100 fois moins de tokens. Notre travail présente une voie viable pour étendre le RL aux niveaux de pré-entraînement, permettant des modèles de langage plus performants et efficaces.
English
Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.
PDF312October 13, 2025