Wiederherstellung versteckter Belohnungen in diffusionsbasierten Politiken

Zusammenfassung

Dieses Paper stellt EnergyFlow vor, einen Rahmen, der generative Aktionsmodellierung mit inversem bestärkendem Lernen vereint, indem eine skalare Energie-Funktion parametrisiert wird, deren Gradient das Denoising-Feld darstellt. Wir zeigen, dass unter Maximum-Entropy-Optimalität die durch Denoising Score Matching gelernte Score-Funktion den Gradienten der soft Q-Funktion des Experten rekonstruiert, was eine Belohnungsextraktion ohne adversarielles Training ermöglicht. Formal beweisen wir, dass die Einschränkung des gelernten Feldes auf konservative Felder die Hypothesenkomplexität reduziert und Generalisierungsgrenzen für Out-of-Distribution-Daten verschärft. Wir charakterisieren weiterhin die Identifizierbarkeit der rekonstruierten Belohnungen und grenzen ab, wie Schätzfehler der Scores sich auf Aktionspräferenzen auswirken. Empirisch erreicht EnergyFlow state-of-the-art Imitationsleistung in verschiedenen Manipulationsaufgaben und liefert gleichzeitig ein effektives Belohnungssignal für nachgelagertes bestärkendes Lernen, das sowohl adversarielle IRL-Methoden als auch likelihood-basierte Alternativen übertrifft. Diese Ergebnisse zeigen, dass die strukturellen Zwänge für valide Belohnungsextraktion gleichzeitig vorteilhafte induktive Verzerrungen für Policy-Generalisierung darstellen. Der Code ist verfügbar unter https://github.com/sotaagi/EnergyFlow.

English

This paper introduces EnergyFlow, a framework that unifies generative action modeling with inverse reinforcement learning by parameterizing a scalar energy function whose gradient is the denoising field. We establish that under maximum-entropy optimality, the score function learned via denoising score matching recovers the gradient of the expert's soft Q-function, enabling reward extraction without adversarial training. Formally, we prove that constraining the learned field to be conservative reduces hypothesis complexity and tightens out-of-distribution generalization bounds. We further characterize the identifiability of recovered rewards and bound how score estimation errors propagate to action preferences. Empirically, EnergyFlow achieves state-of-the-art imitation performance on various manipulation tasks while providing an effective reward signal for downstream reinforcement learning that outperforms both adversarial IRL methods and likelihood-based alternatives. These results show that the structural constraints required for valid reward extraction simultaneously serve as beneficial inductive biases for policy generalization. The code is available at https://github.com/sotaagi/EnergyFlow.

Wiederherstellung versteckter Belohnungen in diffusionsbasierten Politiken

Recovering Hidden Reward in Diffusion-Based Policies

Zusammenfassung

Support