ChatPaper.aiChatPaper

미분 가능 진화 강화 학습

Differentiable Evolutionary Reinforcement Learning

December 15, 2025
저자: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI

초록

효과적인 보상 함수 설계는 복잡한 추론 작업을 수행하는 자율 에이전트 개발 시 특히, 강화 학습(RL)에서 핵심적이면서도 흔히 어려운 과제로 남아있다. 자동화된 보상 최적화 방법이 존재하지만, 이들은 일반적으로 보상 함수를 블랙박스로 취급하는 유전적 휴리스틱 같은 도함수 없는 방식을 사용하여 보상 구조와 작업 성능 간의 인과관계를 포착하지 못한다. 이러한 간극을 해소하기 위해 우리는 최적의 보상 신호를 자율적으로 발견할 수 있는 이중 수준 프레임워크인 DERL(Differentiable Evolutionary Reinforcement Learning)을 제안한다. DERL에서는 메타 최적화기가 구조화된 원자적 기본 요소들을 조합하여 보상 함수(즉, 메타 보상)를 진화시키며, 내부 루플 정책의 학습을 안내한다. 중요한 점은 기존 진화 방식과 달리, DERL의 메타 최적화 과정은 미분 가능하다는 것이다. 이는 내부 루플 검증 성능을 신호로 삼아 메타 최적화기를 강화 학습을 통해 업데이트한다. 이를 통해 DERL은 작업 성공에 대한 "메타 기울기"를 근사화하여, 점차적으로 더 밀집되고 실행 가능한 피드백을 생성하는 법을 학습한다. 우리는 DERL을 로봇 에이전트(ALFWorld), 과학 시뮬레이션(ScienceWorld), 수학적 추론(GSM8k, MATH)이라는 세 가지 상이한 영역에서 검증하였다. 실험 결과, DERL은 ALFWorld와 ScienceWorld에서 최첨단 성능을 달성했으며, 특히 분포 외 시나리오에서 휴리스틱 보상에 의존하는 방법들을 크게 능가하는 것으로 나타났다. 진화 궤적에 대한 분석은 DERL이 작업의 내재적 구조를 성공적으로 포착하여 인간의 개입 없이 자기 개선적인 에이전트 정렬을 가능하게 함을 보여준다.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.
PDF161December 18, 2025