Aprendizaje por Refuerzo Evolutivo Diferenciable
Differentiable Evolutionary Reinforcement Learning
December 15, 2025
Autores: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI
Resumen
El diseño de funciones de recompensa efectivas presenta un desafío central y a menudo arduo en el aprendizaje por refuerzo (RL), particularmente al desarrollar agentes autónomos para tareas de razonamiento complejas. Si bien existen enfoques automatizados de optimización de recompensas, estos típicamente dependen de heurísticas evolutivas libres de derivadas que tratan la función de recompensa como una caja negra, sin capturar la relación causal entre la estructura de la recompensa y el rendimiento en la tarea. Para cerrar esta brecha, proponemos el Aprendizaje por Refuerzo Evolutivo Diferenciable (DERL), un marco bi-nivel que permite el descubrimiento autónomo de señales de recompensa óptimas. En DERL, un Meta-Optimizador hace evolucionar una función de recompensa (es decir, una Meta-Recompensa) componiendo primitivas atómicas estructuradas, guiando el entrenamiento de una política de bucle interno. Crucialmente, a diferencia de evoluciones anteriores, DERL es diferenciable en su meta-optimización: trata el rendimiento de validación del bucle interno como una señal para actualizar el Meta-Optimizador mediante aprendizaje por refuerzo. Esto permite a DERL aproximar el "meta-gradiente" del éxito de la tarea, aprendiendo progresivamente a generar retroalimentación más densa y procesable. Validamos DERL en tres dominios distintos: agente robótico (ALFWorld), simulación científica (ScienceWorld) y razonamiento matemático (GSM8k, MATH). Los resultados experimentales muestran que DERL alcanza un rendimiento de vanguardia en ALFWorld y ScienceWorld, superando significativamente a los métodos que dependen de recompensas heurísticas, especialmente en escenarios fuera de distribución. El análisis de la trayectoria evolutiva demuestra que DERL captura con éxito la estructura intrínseca de las tareas, permitiendo una alineación de agentes auto-mejorable sin intervención humana.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.