Het Herstellen van Verborgen Beloning in Op Diffusie Gebaseerd Beleid
Recovering Hidden Reward in Diffusion-Based Policies
May 1, 2026
Auteurs: Yanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
cs.AI
Samenvatting
Dit artikel introduceert EnergyFlow, een raamwerk dat generatieve modellering van acties verenigt met inverse reinforcement learning door een scalaire energiefunctie te parametriseren waarvan de gradiënt het denoising-veld vormt. Wij tonen aan dat onder maximalisatie van entropie-optimaliteit de scorefunctie die via denoising score matching wordt geleerd, de gradiënt van de soft Q-functie van de expert reconstrueert, waardoor beloningsextractie mogelijk wordt zonder adversarial training. Formeel bewijzen we dat het afdwingen van een conservatief geleerd veld de hypothesecomplexiteit reduceert en de generalisatiegrenzen voor out-of-distribution data aanscherpt. Verder karakteriseren we de identificeerbaarheid van gereconstrueerde beloningen en begrenzen we hoe schattingsfouten in scores doorwerken in actievoorkeuren. Empirisch behaalt EnergyFlow state-of-the-art imitatieprestaties op diverse manipulatietaken, terwijl het een effectief beloningssignaal biedt voor downstream reinforcement learning dat zowel adversarial IRL-methoden als op waarschijnlijkheid gebaseerde alternatieven overtreft. Deze resultaten tonen aan dat de structurele beperkingen die nodig zijn voor valide beloningsextractie tegelijkertijd dienen als gunstige inductieve biases voor policy-generalisatie. De code is beschikbaar op https://github.com/sotaagi/EnergyFlow.
English
This paper introduces EnergyFlow, a framework that unifies generative action modeling with inverse reinforcement learning by parameterizing a scalar energy function whose gradient is the denoising field. We establish that under maximum-entropy optimality, the score function learned via denoising score matching recovers the gradient of the expert's soft Q-function, enabling reward extraction without adversarial training. Formally, we prove that constraining the learned field to be conservative reduces hypothesis complexity and tightens out-of-distribution generalization bounds. We further characterize the identifiability of recovered rewards and bound how score estimation errors propagate to action preferences. Empirically, EnergyFlow achieves state-of-the-art imitation performance on various manipulation tasks while providing an effective reward signal for downstream reinforcement learning that outperforms both adversarial IRL methods and likelihood-based alternatives. These results show that the structural constraints required for valid reward extraction simultaneously serve as beneficial inductive biases for policy generalization. The code is available at https://github.com/sotaagi/EnergyFlow.