Webscale-RL: Canalización Automatizada de Datos para Escalar Información de Aprendizaje por Refuerzo a Niveles de Pretrenamiento
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels
October 7, 2025
Autores: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable a través del aprendizaje por imitación en vastos corpus de texto, pero este paradigma crea una brecha entre el entrenamiento y la generación, limitando el razonamiento robusto. El aprendizaje por refuerzo (RL, por sus siglas en inglés) ofrece una solución más eficiente en términos de datos capaz de cerrar esta brecha, aunque su aplicación se ha visto limitada por un cuello de botella crítico: los conjuntos de datos de RL existentes son órdenes de magnitud más pequeños y menos diversos que los corpus de preentrenamiento a escala web. Para abordar esto, presentamos la pipeline Webscale-RL, un motor de datos escalable que convierte sistemáticamente documentos de preentrenamiento a gran escala en millones de pares pregunta-respuesta diversos y verificables para RL. Utilizando esta pipeline, construimos el conjunto de datos Webscale-RL, que contiene 1.2 millones de ejemplos en más de 9 dominios. Nuestros experimentos muestran que el modelo entrenado con este conjunto de datos supera significativamente al preentrenamiento continuo y a líneas base sólidas de refinamiento de datos en una serie de benchmarks. Notablemente, el entrenamiento con RL utilizando nuestro conjunto de datos resulta sustancialmente más eficiente, alcanzando el rendimiento del preentrenamiento continuo con hasta 100 veces menos tokens. Nuestro trabajo presenta un camino viable hacia la escalabilidad del RL a niveles de preentrenamiento, permitiendo modelos de lenguaje más capaces y eficientes.
English
Large Language Models (LLMs) have achieved remarkable success through
imitation learning on vast text corpora, but this paradigm creates a
training-generation gap and limits robust reasoning. Reinforcement learning
(RL) offers a more data-efficient solution capable of bridging this gap, yet
its application has been constrained by a critical data bottleneck: existing RL
datasets are orders of magnitude smaller and less diverse than web-scale
pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a
scalable data engine that systematically converts large-scale pre-training
documents into millions of diverse, verifiable question-answer pairs for RL.
Using this pipeline, we construct the Webscale-RL dataset, containing 1.2
million examples across more than 9 domains. Our experiments show that the
model trained on this dataset significantly outperforms continual pretraining
and strong data refinement baselines across a suite of benchmarks. Notably, RL
training with our dataset proves substantially more efficient, achieving the
performance of continual pre-training with up to 100times fewer tokens. Our
work presents a viable path toward scaling RL to pre-training levels, enabling
more capable and efficient language models.