Apprendimento per Rinforzo Evolutivo Differenziabile
Differentiable Evolutionary Reinforcement Learning
December 15, 2025
Autori: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI
Abstract
La progettazione di funzioni di ricompensa efficaci rappresenta una sfida centrale e spesso ardua nell'apprendimento per rinforzo (RL), in particolare nello sviluppo di agenti autonomi per compiti di ragionamento complesso. Sebbene esistano approcci di ottimizzazione automatica della ricompensa, questi si basano tipicamente su euristiche evolutive senza derivate che trattano la funzione di ricompensa come una scatola nera, non riuscendo a catturare la relazione causale tra struttura della ricompensa e prestazione del compito. Per colmare questa lacuna, proponiamo il Differentiable Evolutionary Reinforcement Learning (DERL), un framework bilevel che consente la scoperta autonoma di segnali di ricompensa ottimali. In DERL, un Meta-Ottimizzatore evolve una funzione di ricompensa (cioè, Meta-Ricompensa) componendo primitive atomiche strutturate, guidando l'addestramento di una politica ad anello interno. Crucialmente, a differenza delle precedenti evoluzioni, DERL è differenziabile nella sua meta-ottimizzazione: tratta la prestazione di validazione ad anello interno come un segnale per aggiornare il Meta-Ottimizzatore tramite apprendimento per rinforzo. Ciò consente a DERL di approssimare il "meta-gradiente" del successo del compito, imparando progressivamente a generare un feedback più denso e azionabile. Convalidiamo DERL in tre domini distinti: agente robotico (ALFWorld), simulazione scientifica (ScienceWorld) e ragionamento matematico (GSM8k, MATH). I risultati sperimentali mostrano che DERL raggiunge prestazioni all'avanguardia su ALFWorld e ScienceWorld, superando significativamente i metodi che si basano su ricompense euristiche, specialmente in scenari di distribuzione non vista. L'analisi della traiettoria evolutiva dimostra che DERL cattura con successo la struttura intrinseca dei compiti, consentendo un allineamento auto-migliorante degli agenti senza intervento umano.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.