Дифференцируемая эволюционная обучение с подкреплением
Differentiable Evolutionary Reinforcement Learning
December 15, 2025
Авторы: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou
cs.AI
Аннотация
Разработка эффективных функций вознаграждения представляет собой центральную и зачастую трудоемкую проблему в обучении с подкреплением (OR), особенно при создании автономных агентов для сложных задач логического вывода. Хотя существуют подходы к автоматической оптимизации вознаграждений, они обычно полагаются на эволюционные эвристики без использования производных, которые рассматривают функцию вознаграждения как «черный ящик» и не учитывают причинно-следственную связь между структурой вознаграждения и результативностью решения задачи. Для преодоления этого разрыва мы предлагаем Дифференцируемое Эволюционное Обучение с Подкреплением (Differentiable Evolutionary Reinforcement Learning, DERL) — двухуровневую框架, которая позволяет автономно обнаруживать оптимальные сигналы вознаграждения. В DERL Мета-Оптимизатор развивает функцию вознаграждения (т.е. Мета-Вознаграждение) путем композиции структурированных атомарных примитивов, направляя обучение политики на внутреннем уровне. Ключевое отличие от предыдущих эволюционных методов состоит в том, что метаоптимизация в DERL является дифференцируемой: она рассматривает результативность на валидационной выборке внутреннего уровня как сигнал для обновления Мета-Оптимизатора с помощью обучения с подкреплением. Это позволяет DERL аппроксимировать «метаградиент» успешности задачи, постепенно обучаясь генерировать более плотную и практичную обратную связь. Мы проверяем эффективность DERL в трех различных областях: робототехнический агент (ALFWorld), научное моделирование (ScienceWorld) и математические рассуждения (GSM8k, MATH). Экспериментальные результаты показывают, что DERL достигает наилучших результатов на ALFWorld и ScienceWorld, значительно превосходя методы, основанные на эвристических вознаграждениях, особенно в сценариях с выходом за пределы распределения данных. Анализ эволюционной траектории демонстрирует, что DERL успешно выявляет внутреннюю структуру задач, обеспечивая самосовершенствующееся согласование агентов без вмешательства человека.
English
The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.