ChatPaper.aiChatPaper

教師あり強化学習:専門家の軌跡から段階的推論へ

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

October 29, 2025
著者: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI

要旨

大規模言語モデル(LLM)は、多段階の推論を必要とする問題に苦戦することが多い。小規模なオープンソースモデルにおいては、検証可能な報酬を用いた強化学習(RLVR)は、多数の試行後も正しい解法がほとんどサンプリングされない場合に失敗し、教師ありファインチューニング(SFT)は長いデモンストレーションに対して厳密なトークン単位の模倣により過学習する傾向がある。この課題を解決するため、我々は問題解決を論理的な「アクション」の系列生成として再定義するSupervised Reinforcement Learning(SRL)フレームワークを提案する。SRLは、各アクションを決定する前にモデルが内部的な推論モノローグを生成するように訓練する。SFTデータセットから抽出された専門家のアクションとモデルのアクションとの類似性に基づき、ステップ単位でよりスムーズな報酬を提供する。この監督信号は、全てのロールアウトが不正解の場合でもより豊富な学習信号を提供しつつ、専門家のデモンストレーションに導かれた柔軟な推論を促進する。その結果、SRLにより小規模モデルが、従来のSFTやRLVRでは学習不能であった困難な問題を学習できるようになる。さらに、RLVRによる精密化の前にSRLで訓練を初期化することで、全体として最も強力な性能が得られる。推論ベンチマークに加えて、SRLはエージェント的なソフトウェア工学タスクにも効果的に一般化し、推論指向のLLMのための堅牢で汎用的な訓練フレームワークとしての地位を確立する。
English
Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.
PDF442December 2, 2025