Предварительное обучение с подкреплением
Reinforcement Pre-Training
June 9, 2025
Авторы: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI
Аннотация
В данной работе мы представляем Предварительное обучение с подкреплением (Reinforcement Pre-Training, RPT) как новую парадигму масштабирования для больших языковых моделей и обучения с подкреплением (RL). В частности, мы переосмысливаем задачу предсказания следующего токена как задачу рассуждения, обучаемую с использованием RL, где модель получает проверяемые награды за правильное предсказание следующего токена для заданного контекста. RPT предлагает масштабируемый метод использования огромных объемов текстовых данных для обучения с подкреплением общего назначения, вместо того чтобы полагаться на аннотированные ответы для конкретных доменов. Стимулируя способность к рассуждению для предсказания следующего токена, RPT значительно повышает точность языкового моделирования при предсказании следующих токенов. Более того, RPT обеспечивает прочную предварительно обученную основу для дальнейшей тонкой настройки с подкреплением. Кривые масштабирования показывают, что увеличение вычислительных ресурсов для обучения последовательно улучшает точность предсказания следующего токена. Результаты позиционируют RPT как эффективную и перспективную парадигму масштабирования для продвижения предварительного обучения языковых моделей.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling
paradigm for large language models and reinforcement learning (RL).
Specifically, we reframe next-token prediction as a reasoning task trained
using RL, where it receives verifiable rewards for correctly predicting the
next token for a given context. RPT offers a scalable method to leverage vast
amounts of text data for general-purpose RL, rather than relying on
domain-specific annotated answers. By incentivizing the capability of
next-token reasoning, RPT significantly improves the language modeling accuracy
of predicting the next tokens. Moreover, RPT provides a strong pre-trained
foundation for further reinforcement fine-tuning. The scaling curves show that
increased training compute consistently improves the next-token prediction
accuracy. The results position RPT as an effective and promising scaling
paradigm to advance language model pre-training.