Webscale-RL: Автоматизированный конвейер данных для масштабирования данных RL до уровня предварительного обучения
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels
October 7, 2025
Авторы: Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли впечатляющих успехов благодаря обучению на имитации обширных текстовых корпусов, однако такой подход создает разрыв между обучением и генерацией и ограничивает устойчивое рассуждение. Обучение с подкреплением (RL) предлагает более эффективное с точки зрения данных решение, способное устранить этот разрыв, но его применение ограничено критической проблемой нехватки данных: существующие наборы данных для RL на порядки меньше и менее разнообразны, чем веб-масштабные корпуса для предварительного обучения. Чтобы решить эту проблему, мы представляем конвейер Webscale-RL — масштабируемый механизм обработки данных, который систематически преобразует крупномасштабные документы для предварительного обучения в миллионы разнообразных и проверяемых пар вопрос-ответ для RL. Используя этот конвейер, мы создаем набор данных Webscale-RL, содержащий 1,2 миллиона примеров из более чем 9 областей. Наши эксперименты показывают, что модель, обученная на этом наборе данных, значительно превосходит непрерывное предварительное обучение и сильные базовые методы уточнения данных на ряде тестов. Примечательно, что обучение с подкреплением с использованием нашего набора данных оказывается существенно более эффективным, достигая производительности непрерывного предварительного обучения при использовании до 100 раз меньшего количества токенов. Наша работа предлагает жизнеспособный путь к масштабированию RL до уровней предварительного обучения, что позволяет создавать более мощные и эффективные языковые модели.
English
Large Language Models (LLMs) have achieved remarkable success through
imitation learning on vast text corpora, but this paradigm creates a
training-generation gap and limits robust reasoning. Reinforcement learning
(RL) offers a more data-efficient solution capable of bridging this gap, yet
its application has been constrained by a critical data bottleneck: existing RL
datasets are orders of magnitude smaller and less diverse than web-scale
pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a
scalable data engine that systematically converts large-scale pre-training
documents into millions of diverse, verifiable question-answer pairs for RL.
Using this pipeline, we construct the Webscale-RL dataset, containing 1.2
million examples across more than 9 domains. Our experiments show that the
model trained on this dataset significantly outperforms continual pretraining
and strong data refinement baselines across a suite of benchmarks. Notably, RL
training with our dataset proves substantially more efficient, achieving the
performance of continual pre-training with up to 100times fewer tokens. Our
work presents a viable path toward scaling RL to pre-training levels, enabling
more capable and efficient language models.