Differenzierbares evolutionäres verstärkendes Lernen
Differentiable Evolutionary Reinforcement Learning
December 15, 2025
papers.authors: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI
papers.abstract
Die Gestaltung effektiver Belohnungsfunktionen stellt eine zentrale und oft mühsame Herausforderung im Reinforcement Learning (RL) dar, insbesondere bei der Entwicklung autonomer Agenten für komplexe Denkaufgaben. Obwohl automatisierte Belohnungsoptimierungsansätze existieren, basieren diese typischerweise auf evolutionären, ableitungsfreien Heuristiken, die die Belohnungsfunktion als Blackbox behandeln und somit die kausale Beziehung zwischen Belohnungsstruktur und Aufgabenleistung nicht erfassen. Um diese Lücke zu schließen, schlagen wir Differentiable Evolutionary Reinforcement Learning (DERL) vor, ein bi-ebenes Framework, das die autonome Entdeckung optimaler Belohnungssignale ermöglicht. In DERL entwickelt ein Meta-Optimierer eine Belohnungsfunktion (d.h. eine Meta-Belohnung) durch die Kombination strukturierter atomarer Primitive, die das Training einer Policy in einer inneren Schleife steuert. Anders als bei früheren evolutionären Ansätzen ist DERL entscheidenderweise in seiner Meta-Optimierung differenzierbar: Es behandelt die Validierungsleistung der inneren Schleife als Signal zur Aktualisierung des Meta-Optimierers mittels Reinforcement Learning. Dies ermöglicht es DERL, den "Meta-Gradienten" des Aufgaben-erfolgs anzunähern und progressiv zu lernen, dichtere und handlungsrelevantere Rückmeldungen zu generieren. Wir validieren DERL in drei verschiedenen Domänen: Roboteragent (ALFWorld), wissenschaftliche Simulation (ScienceWorld) und mathematisches Denken (GSM8k, MATH). Experimentelle Ergebnisse zeigen, dass DERL auf ALFWorld und ScienceWorld state-of-the-art Leistung erzielt und Methoden, die auf heuristischen Belohnungen basieren, insbesondere in Out-of-Distribution-Szenarien, signifikant übertrifft. Die Analyse der evolutionären Trajektorie demonstriert, dass DERL erfolgreich die intrinsische Struktur der Aufgaben erfasst und eine sich selbst verbessernde Agenten-Ausrichtung ohne menschliches Eingreifen ermöglicht.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.