Промежуточное обучение с использованием самогенерированных данных улучшает обучение с подкреплением в языковых моделях.
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
May 8, 2026
Авторы: Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral
cs.AI
Аннотация
Эффективность обучения с подкреплением (RL) в больших языковых моделях (LLM) зависит от природы и разнообразия данных, используемых до и во время RL. В частности, задачи на рассуждение часто могут решаться несколькими способами, которые опираются на разные формы рассуждения, и знакомство только с ограниченным набором таких подходов в обучающих данных может ограничить эффективность RL. Руководствуясь этим, мы исследуем использование разнообразных самостоятельно сгенерированных данных в ходе промежуточного обучения как промежуточного этапа перед обучением RL. В частности, мы применяем фреймворк генерации данных с бутстрепингом, основанный на подходах к решению задач Джорджа Пойа, для генерации множества вариантов правильных ответов для каждого вопроса в обучающих данных, после чего проводим точную настройку.
Сначала мы даем теоретический взгляд на то, как промежуточное обучение на таких данных улучшает RL, и объясняем, как обновления градиента политики могут стимулировать комбинирование нескольких подходов. Затем мы эмпирически демонстрируем, что модели, обученные с помощью RL и инициализированные нашими данными промежуточного обучения, достигают последовательных улучшений на различных бенчмарках математического рассуждения и других задачах вне распределения (OOD), таких как генерация кода и нарративное рассуждение. В целом, наше исследование показывает, что языковая модель, изучающая несколько подходов к решению задач с помощью самостоятельно сгенерированных данных, помогает последующему RL.
English
The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.