ChatPaper.aiChatPaper

補完的強化学習

Complementary Reinforcement Learning

March 18, 2026
著者: Dilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng
cs.AI

要旨

強化学習(RL)はLLMベースのエージェントを訓練する強力なパラダイムとして登場したが、希薄な結果フィードバックに加え、エピソード間での過去の経験を活用できないことから、サンプル効率の低さに制限されている。歴史的経験でエージェントを拡張する手法は有望な解決策であるが、既存のアプローチには重大な弱点がある:歴史から抽出された経験は静的に保存されるか、改善するアクターと共進化に失敗するため、訓練の過程で経験とアクターの進化する能力の間に乖離が生じ、その有用性が低下する。神経科学における相補的学習システムに着想を得て、本論文ではRL最適化ループ内で経験抽出器と方策アクターのシームレスな共進化を実現する相補的RLを提案する。具体的には、アクターは希薄な結果に基づく報酬で最適化され、経験抽出器は抽出された経験がアクターの成功に明確に寄与するかどうかに基づいて最適化される。これにより、経験管理戦略がアクターの成長する能力と歩調を合わせて進化する。実験では、相補的RLは経験学習を行わない結果ベースのエージェントRLベースラインを上回り、単一タスクシナリオで10%の性能向上を達成し、マルチタスク設定でも堅牢なスケーラビリティを示した。これらの結果は、相補的RLが効率的な経験駆動型エージェント学習のパラダイムであることを立証している。
English
Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.
PDF312March 20, 2026