Предварительное обучение с подкреплением

Аннотация

В данной работе мы представляем Предварительное обучение с подкреплением (Reinforcement Pre-Training, RPT) как новую парадигму масштабирования для больших языковых моделей и обучения с подкреплением (RL). В частности, мы переосмысливаем задачу предсказания следующего токена как задачу рассуждения, обучаемую с использованием RL, где модель получает проверяемые награды за правильное предсказание следующего токена для заданного контекста. RPT предлагает масштабируемый метод использования огромных объемов текстовых данных для обучения с подкреплением общего назначения, вместо того чтобы полагаться на аннотированные ответы для конкретных доменов. Стимулируя способность к рассуждению для предсказания следующего токена, RPT значительно повышает точность языкового моделирования при предсказании следующих токенов. Более того, RPT обеспечивает прочную предварительно обученную основу для дальнейшей тонкой настройки с подкреплением. Кривые масштабирования показывают, что увеличение вычислительных ресурсов для обучения последовательно улучшает точность предсказания следующего токена. Результаты позиционируют RPT как эффективную и перспективную парадигму масштабирования для продвижения предварительного обучения языковых моделей.

English

In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.