ChatPaper.aiChatPaper

Differentieerbare Evolutionaire Versterkingsleren

Differentiable Evolutionary Reinforcement Learning

December 15, 2025
Auteurs: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI

Samenvatting

Het ontwerpen van effectieve beloningsfuncties vormt een centrale en vaak moeizame uitdaging bij reinforcement learning (RL), met name bij de ontwikkeling van autonome agents voor complexe redeneertaken. Hoewel er geautomatiseerde benaderingen voor beloningsoptimalisatie bestaan, zijn deze doorgaans gebaseerd op afgeleide-vrije evolutionaire heuristieken die de beloningsfunctie als een black box behandelen, waardoor ze de causale relatie tussen beloningsstructuur en taakprestatie niet vastleggen. Om deze kloof te overbruggen, stellen wij Differentieerbaar Evolutionair Reinforcement Learning (DERL) voor, een bi-level raamwerk dat de autonome ontdekking van optimale beloningssignalen mogelijk maakt. In DERL evolueert een Meta-Optimalisator een beloningsfunctie (d.w.z. een Meta-Beloning) door gestructureerde atomische primitieven samen te stellen, waarbij de training van een inner-loop policy wordt gestuurd. In tegenstelling tot eerdere evolutionaire benaderingen is DERL cruciaal genoeg differentieerbaar in zijn meta-optimalisatie: het behandelt de validatieprestatie van de inner-loop als een signaal om de Meta-Optimalisator bij te werken via reinforcement learning. Hierdoor kan DERL de "metagradiënt" van taaksucces benaderen en zo geleidelijk leren dichtere en bruikbaarder feedback te genereren. Wij valideren DERL in drie verschillende domeinen: robotagent (ALFWorld), wetenschappelijke simulatie (ScienceWorld) en wiskundig redeneren (GSM8k, MATH). Experimentele resultaten tonen aan dat DERL state-of-the-art prestaties behaalt op ALFWorld en ScienceWorld, en methoden die op heuristische beloningen vertrouwen significant overtreft, vooral in out-of-distribution scenario's. Analyse van het evolutionaire traject toont aan dat DERL met succes de intrinsieke structuur van taken vastlegt, waardoor zelfverbeterende agentafstemming zonder menselijk ingrijpen mogelijk wordt.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.
PDF161December 18, 2025