Apprentissage par Renforcement Évolutif Différentiable
Differentiable Evolutionary Reinforcement Learning
December 15, 2025
papers.authors: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI
papers.abstract
La conception de fonctions de récompense efficaces représente un défi central et souvent ardu en apprentissage par renforcement (RL), particulièrement lors du développement d'agents autonomes pour des tâches de raisonnement complexes. Bien que des approches d'optimisation automatique des récompenses existent, elles reposent généralement sur des heuristiques évolutionnaires sans dérivées qui traitent la fonction de récompense comme une boîte noire, ne parvenant pas à capturer la relation causale entre la structure de la récompense et la performance à la tâche. Pour combler cette lacune, nous proposons le Differentiable Evolutionary Reinforcement Learning (DERL), un cadre bi-niveaux qui permet la découverte autonome de signaux de récompense optimaux. Dans DERL, un méta-optimiseur fait évoluer une fonction de récompense (c'est-à-dire une Méta-Récompense) en composant des primitives atomiques structurées, guidant l'entraînement d'une politique en boucle interne. De manière cruciale, contrairement aux approches évolutionnaires précédentes, DERL est différentiable dans sa méta-optimisation : il traite la performance de validation en boucle interne comme un signal pour mettre à jour le Méta-Optimiseur via l'apprentissage par renforcement. Cela permet à DERL d'approximer le « méta-gradient » de la réussite de la tâche, apprenant progressivement à générer un retour d'information plus dense et plus actionnable. Nous validons DERL dans trois domaines distincts : agent robotique (ALFWorld), simulation scientifique (ScienceWorld) et raisonnement mathématique (GSM8k, MATH). Les résultats expérimentaux montrent que DERL atteint des performances à l'état de l'art sur ALFWorld et ScienceWorld, surpassant significativement les méthodes reposant sur des récompenses heuristiques, en particulier dans des scénarios hors-distribution. L'analyse de la trajectoire évolutive démontre que DERL capture avec succès la structure intrinsèque des tâches, permettant un alignement auto-améliorant des agents sans intervention humaine.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.