ChatPaper.aiChatPaper

自己蒸留による強化学習

Reinforcement Learning via Self-Distillation

January 28, 2026
著者: Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause
cs.AI

要旨

大規模言語モデルは、コードや数学などの検証可能な領域において、強化学習を用いた事後学習が増加している。しかし、検証可能な報酬を用いた強化学習(RLVR)の現在の手法は、1試行ごとのスカラー結果報酬からのみ学習するため、深刻な信用割り当てのボトルネックが生じている。多くの検証可能な環境では、実際にはランタイムエラーや審査評価といった、試行の失敗理由を説明する豊富なテキストフィードバックが提供される。本研究では、豊富なフィードバックを用いた強化学習としてこの設定を形式化し、外部の教師や明示的な報酬モデルを必要とせずに、トークン化されたフィードバックを高密度な学習信号に変換する自己蒸留政策最適化(SDPO)を提案する。SDPOは、フィードバックを条件づけた現在のモデルを自己教師として扱い、そのフィードバック情報に基づく次トークン予測を政策に蒸留し直す。このようにして、SDPOはモデルが文脈内で自身の誤りを遡及的に特定する能力を活用する。科学推論、ツール使用、LiveCodeBench v6における競技プログラミングにわたる実験で、SDPOは強力なRLVRベースラインよりもサンプル効率と最終精度を向上させた。特に、スカラーフィードバックのみを返す標準的なRLVR環境においても、SDPOは成功したロールアウトを失敗試行に対する暗黙的フィードバックとして利用することでベースラインを上回った。最後に、テスト時に個別の問題にSDPOを適用することで、困難な二値報酬タスクにおける発見が加速され、k-bestサンプリングや多ターン対話と同等の発見確率を、試行回数を3分の1に抑えて達成した。
English
Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.
PDF52January 30, 2026