ChatPaper.aiChatPaper

微分可能進化強化学習

Differentiable Evolutionary Reinforcement Learning

December 15, 2025
著者: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI

要旨

効果的な報酬関数の設計は、強化学習(RL)における中心的かつしばしば困難な課題であり、特に複雑な推論タスクを行う自律エージェントの開発において顕著である。自動化された報酬最適化手法は存在するが、それらは一般に、報酬関数をブラックボックスとして扱い、報酬構造とタスク性能の間の因果関係を捉えられない導関数不要の進化的ヒューリスティックに依存している。この隔たりを埋めるため、我々は最適な報酬信号の自律的発見を可能にする二レベルフレームワーク、微分可能進化強化学習(DERL)を提案する。DERLでは、メタ最適化器が構造化された原子的プリミティブを組み合わせて報酬関数(メタ報酬)を進化させ、内側ループのポリシーの学習を導く。決定的に、従来の進化手法とは異なり、DERLのメタ最適化は微分可能である:内側ループの検証性能を信号として扱い、強化学習を通じてメタ最適化器を更新する。これにより、DERLはタスク成功に対する「メタ勾配」を近似し、より密で実践的なフィードバックを生成する方法を段階的に学習する。我々はDERLを、ロボットエージェント(ALFWorld)、科学シミュレーション(ScienceWorld)、数学的推論(GSM8k, MATH)という3つの異なる領域で検証する。実験結果は、DERLがALFWorldとScienceWorldにおいて最高性能を達成し、ヒューリスティックな報酬に依存する手法、特に分布外シナリオにおいて大幅に優位であることを示す。進化軌跡の分析は、DERLがタスクの内在的構造を首尾よく捉え、人間の介入なしに自己改善するエージェントのアライメントを可能にすることを実証する。
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.
PDF161December 18, 2025