ChatPaper.aiChatPaper

Webscale-RL: Pipeline Automatizado para Escalonamento de Dados de RL para Níveis de Pré-treinamento

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

October 7, 2025
Autores: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável por meio de aprendizado por imitação em vastos corpora de texto, mas esse paradigma cria uma lacuna entre treinamento e geração, limitando o raciocínio robusto. O aprendizado por reforço (RL) oferece uma solução mais eficiente em termos de dados, capaz de preencher essa lacuna, mas sua aplicação tem sido limitada por um gargalo crítico de dados: os conjuntos de dados de RL existentes são ordens de magnitude menores e menos diversos do que os corpora de pré-treinamento em escala web. Para resolver isso, introduzimos o pipeline Webscale-RL, um mecanismo de dados escalável que converte sistematicamente documentos de pré-treinamento em grande escala em milhões de pares pergunta-resposta diversos e verificáveis para RL. Usando esse pipeline, construímos o conjunto de dados Webscale-RL, contendo 1,2 milhão de exemplos em mais de 9 domínios. Nossos experimentos mostram que o modelo treinado nesse conjunto de dados supera significativamente o pré-treinamento contínuo e as fortes linhas de base de refinamento de dados em uma série de benchmarks. Notavelmente, o treinamento de RL com nosso conjunto de dados se mostra substancialmente mais eficiente, alcançando o desempenho do pré-treinamento contínuo com até 100 vezes menos tokens. Nosso trabalho apresenta um caminho viável para escalar o RL aos níveis de pré-treinamento, permitindo modelos de linguagem mais capazes e eficientes.
English
Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100times fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.
PDF312October 13, 2025