体験的強化学習
Experiential Reinforcement Learning
February 15, 2026
著者: Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao
cs.AI
要旨
強化学習は、言語モデル(LM)が環境からの報酬やフィードバックから学習する中心的なアプローチとなっている。実際には、環境からのフィードバックは通常まばらで遅延が生じる。このような信号からの学習は困難であり、LMは観測された失敗が将来の反復においてどのように行動変化に変換されるべきかを暗黙的に推論しなければならない。本論文では、強化学習プロセスに明示的な経験-内省-定着のループを組み込んだ訓練パラダイムであるExperiential Reinforcement Learning(ERL)を提案する。タスクが与えられると、モデルは最初の試行を生成し、環境からのフィードバックを受け取り、洗練された第二の試行を導く内省を生成する。第二の試行の成功は強化され、基本方策へと内面化される。このプロセスはフィードバックを構造化された行動修正に変換し、探索を改善し最適化を安定化させるとともに、推論時の追加コストなしで展開時の性能向上を維持する。まばらな報酬の制御環境とエージェント的推論ベンチマークにおいて、ERLは強力な強化学習ベースラインと比較して学習効率と最終性能を一貫して向上させ、複雑な多段階環境では最大+81%、ツール利用推論タスクでは最大+11%の性能向上を達成した。これらの結果は、明示的な自己内省を方策訓練に統合することが、フィードバックを持続的な行動改善に変換する実用的なメカニズムを提供することを示唆している。
English
Reinforcement learning has become the central approach for language models (LMs) to learn from environmental reward or feedback. In practice, the environmental feedback is usually sparse and delayed. Learning from such signals is challenging, as LMs must implicitly infer how observed failures should translate into behavioral changes for future iterations. We introduce Experiential Reinforcement Learning (ERL), a training paradigm that embeds an explicit experience-reflection-consolidation loop into the reinforcement learning process. Given a task, the model generates an initial attempt, receives environmental feedback, and produces a reflection that guides a refined second attempt, whose success is reinforced and internalized into the base policy. This process converts feedback into structured behavioral revision, improving exploration and stabilizing optimization while preserving gains at deployment without additional inference cost. Across sparse-reward control environments and agentic reasoning benchmarks, ERL consistently improves learning efficiency and final performance over strong reinforcement learning baselines, achieving gains of up to +81% in complex multi-step environments and up to +11% in tool-using reasoning tasks. These results suggest that integrating explicit self-reflection into policy training provides a practical mechanism for transforming feedback into durable behavioral improvement.