Webscale-RL: Canalización Automatizada de Datos para Escalar Información de Aprendizaje por Refuerzo a Niveles de Pretrenamiento

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable a través del aprendizaje por imitación en vastos corpus de texto, pero este paradigma crea una brecha entre el entrenamiento y la generación, limitando el razonamiento robusto. El aprendizaje por refuerzo (RL, por sus siglas en inglés) ofrece una solución más eficiente en términos de datos capaz de cerrar esta brecha, aunque su aplicación se ha visto limitada por un cuello de botella crítico: los conjuntos de datos de RL existentes son órdenes de magnitud más pequeños y menos diversos que los corpus de preentrenamiento a escala web. Para abordar esto, presentamos la pipeline Webscale-RL, un motor de datos escalable que convierte sistemáticamente documentos de preentrenamiento a gran escala en millones de pares pregunta-respuesta diversos y verificables para RL. Utilizando esta pipeline, construimos el conjunto de datos Webscale-RL, que contiene 1.2 millones de ejemplos en más de 9 dominios. Nuestros experimentos muestran que el modelo entrenado con este conjunto de datos supera significativamente al preentrenamiento continuo y a líneas base sólidas de refinamiento de datos en una serie de benchmarks. Notablemente, el entrenamiento con RL utilizando nuestro conjunto de datos resulta sustancialmente más eficiente, alcanzando el rendimiento del preentrenamiento continuo con hasta 100 veces menos tokens. Nuestro trabajo presenta un camino viable hacia la escalabilidad del RL a niveles de preentrenamiento, permitiendo modelos de lenguaje más capaces y eficientes.

English

Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.

Webscale-RL: Canalización Automatizada de Datos para Escalar Información de Aprendizaje por Refuerzo a Niveles de Pretrenamiento

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Resumen

Support