Обучение с подкреплением с учителем: от экспертных траекторий к пошаговому рассуждению
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
October 29, 2025
Авторы: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
Аннотация
Крупные языковые модели (LLM) часто испытывают трудности с задачами, требующими многошаговых рассуждений. Для небольших открытых моделей обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) терпит неудачу, когда правильные решения редко сэмплируются даже после множества попыток, тогда как контролируемое тонкое настраивание (SFT) склонно к переобучению на длинных демонстрациях через жесткое покомпонентное имитирование. Для устранения этого пробела мы предлагаем Контролируемое обучение с подкреплением (SRL) — фреймворк, который переформулирует решение задач как генерацию последовательности логических «действий». SRL обучает модель генерировать внутренний монолог рассуждений перед принятием каждого действия. Он обеспечивает более плавные вознаграждения на основе сходства между действиями модели и экспертными действиями, извлеченными из набора данных SFT пошаговым образом. Этот контроль предоставляет более богатые обучающие сигналы даже когда все прогоны неверны, одновременно поощряя гибкие рассуждения, направляемые экспертными демонстрациями. В результате SRL позволяет небольшим моделям осваивать сложные задачи, ранее недоступные для SFT или RLVR. Более того, инициализация обучения с помощью SRL с последующей донастройкой RLVR дает наилучшую общую производительность. Помимо бенчмарков рассуждений, SRL эффективно обобщается на агентные задачи программной инженерии, что утверждает его как надежный и универсальный фреймворк обучения для LLM, ориентированных на рассуждения.
English
Large Language Models (LLMs) often struggle with problems that require
multi-step reasoning. For small-scale open-source models, Reinforcement
Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely
sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to
overfit long demonstrations through rigid token-by-token imitation. To address
this gap, we propose Supervised Reinforcement Learning (SRL), a framework that
reformulates problem solving as generating a sequence of logical "actions". SRL
trains the model to generate an internal reasoning monologue before committing
to each action. It provides smoother rewards based on the similarity between
the model's actions and expert actions extracted from the SFT dataset in a
step-wise manner. This supervision offers richer learning signals even when all
rollouts are incorrect, while encouraging flexible reasoning guided by expert
demonstrations. As a result, SRL enables small models to learn challenging
problems previously unlearnable by SFT or RLVR. Moreover, initializing training
with SRL before refining with RLVR yields the strongest overall performance.
Beyond reasoning benchmarks, SRL generalizes effectively to agentic software
engineering tasks, establishing it as a robust and versatile training framework
for reasoning-oriented LLMs.