Wiederherstellung versteckter Belohnungen in diffusionsbasierten Politiken
Recovering Hidden Reward in Diffusion-Based Policies
May 1, 2026
Autoren: Yanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
cs.AI
Zusammenfassung
Dieses Paper stellt EnergyFlow vor, einen Rahmen, der generative Aktionsmodellierung mit inversem bestärkendem Lernen vereint, indem eine skalare Energie-Funktion parametrisiert wird, deren Gradient das Denoising-Feld darstellt. Wir zeigen, dass unter Maximum-Entropy-Optimalität die durch Denoising Score Matching gelernte Score-Funktion den Gradienten der soft Q-Funktion des Experten rekonstruiert, was eine Belohnungsextraktion ohne adversarielles Training ermöglicht. Formal beweisen wir, dass die Einschränkung des gelernten Feldes auf konservative Felder die Hypothesenkomplexität reduziert und Generalisierungsgrenzen für Out-of-Distribution-Daten verschärft. Wir charakterisieren weiterhin die Identifizierbarkeit der rekonstruierten Belohnungen und grenzen ab, wie Schätzfehler der Scores sich auf Aktionspräferenzen auswirken. Empirisch erreicht EnergyFlow state-of-the-art Imitationsleistung in verschiedenen Manipulationsaufgaben und liefert gleichzeitig ein effektives Belohnungssignal für nachgelagertes bestärkendes Lernen, das sowohl adversarielle IRL-Methoden als auch likelihood-basierte Alternativen übertrifft. Diese Ergebnisse zeigen, dass die strukturellen Zwänge für valide Belohnungsextraktion gleichzeitig vorteilhafte induktive Verzerrungen für Policy-Generalisierung darstellen. Der Code ist verfügbar unter https://github.com/sotaagi/EnergyFlow.
English
This paper introduces EnergyFlow, a framework that unifies generative action modeling with inverse reinforcement learning by parameterizing a scalar energy function whose gradient is the denoising field. We establish that under maximum-entropy optimality, the score function learned via denoising score matching recovers the gradient of the expert's soft Q-function, enabling reward extraction without adversarial training. Formally, we prove that constraining the learned field to be conservative reduces hypothesis complexity and tightens out-of-distribution generalization bounds. We further characterize the identifiability of recovered rewards and bound how score estimation errors propagate to action preferences. Empirically, EnergyFlow achieves state-of-the-art imitation performance on various manipulation tasks while providing an effective reward signal for downstream reinforcement learning that outperforms both adversarial IRL methods and likelihood-based alternatives. These results show that the structural constraints required for valid reward extraction simultaneously serve as beneficial inductive biases for policy generalization. The code is available at https://github.com/sotaagi/EnergyFlow.