自己蒸留エージェント強化学習
Self-Distilled Agentic Reinforcement Learning
May 14, 2026
著者: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
要旨
強化学習(RL)は、LLMエージェントの事後学習における中心的なパラダイムとして登場したが、その軌跡レベルの報酬信号は、長期的なインタラクションに対して粗い監督しか提供しない。オンポリシー自己蒸留(OPSD)は、特権的コンテキストで拡張された教師ブランチからの密なトークンレベルのガイダンスを導入することで、RLを補完する。しかし、OPSDをマルチターンエージェントに転用することは問題を引き起こす。複合的なマルチターンの不安定性が監督を不安定にし、スキル条件付き特権的ガイダンスは、不完全なスキル検索または活用に起因する否定的な教師の拒否に対し、非対称な扱いを必要とする。本稿では、SDAR(自己蒸餾エージェント強化学習)を提案する。SDARは、OPSDをゲート付き補助目的として扱いつつ、RLを主要な最適化基盤として維持する。SDARは、切り離されたトークンレベルの信号をシグモイドゲートにマッピングし、教師が承認したポジティブギャップトークンに対する蒸留を強化し、否定的な教師の拒否をソフトに減衰させる。Qwen2.5およびQwen3ファミリーにおいて、ALFWorld、WebShop、Search-QA上で評価した結果、SDARはGRPOと比較して大幅に改善され(ALFWorldで+9.4%、Search-QAで+7.0%、WebShop-Accで+10.2%)、単純なGRPO+OPSDの不安定性を回避し、モデル規模を問わずハイブリッドRL-OPSDベースラインを一貫して上回る。
English
Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.