Aprendizado por Reforço Evolucionário Diferenciável

Resumo

O projeto de funções de recompensa eficazes representa um desafio central e frequentemente árduo na aprendizagem por reforço (RL), particularmente no desenvolvimento de agentes autónomos para tarefas de raciocínio complexo. Embora existam abordagens automatizadas de otimização de recompensa, estas geralmente dependem de heurísticas evolutivas sem derivadas que tratam a função de recompensa como uma caixa negra, falhando em capturar a relação causal entre a estrutura da recompensa e o desempenho da tarefa. Para colmatar esta lacuna, propomos a Aprendizagem por Reforço Evolutiva Diferenciável (DERL), uma estrutura bilevel que permite a descoberta autónoma de sinais de recompensa ótimos. Na DERL, um Meta-Otimizador evolui uma função de recompensa (ou seja, Meta-Recompensa) através da composição de primitivas atómicas estruturadas, orientando o treino de uma política de ciclo interno. Crucialmente, ao contrário de evoluções anteriores, a DERL é diferenciável na sua metaotimização: trata o desempenho de validação do ciclo interno como um sinal para atualizar o Meta-Otimizador via aprendizagem por reforço. Isto permite que a DERL aproxime o "metagradiente" do sucesso da tarefa, aprendendo progressivamente a gerar feedback mais denso e acionável. Validamos a DERL em três domínios distintos: agente robótico (ALFWorld), simulação científica (ScienceWorld) e raciocínio matemático (GSM8k, MATH). Os resultados experimentais mostram que a DERL atinge um desempenho state-of-the-art no ALFWorld e ScienceWorld, superando significativamente os métodos que dependem de recompensas heurísticas, especialmente em cenários fora da distribuição. A análise da trajetória evolutiva demonstra que a DERL captura com sucesso a estrutura intrínseca das tarefas, permitindo o alinhamento autónomo de agentes com autoaprimoramento sem intervenção humana.

English

The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.