Diffusionsrichtlinienoptimierung
Diffusion Policy Policy Optimization
September 1, 2024
Autoren: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Zusammenfassung
Wir stellen Diffusion Policy Policy Optimization, DPPO, vor, ein algorithmisches Rahmenwerk, das bewährte Verfahren zur Feinabstimmung von diffusionsbasierten Richtlinien (z. B. Diffusion Policy) in kontinuierlichen Steuerungs- und Roboterlernaufgaben unter Verwendung der Richtliniengradientenmethode (PG) aus dem Bereich des verstärkenden Lernens einführt. PG-Methoden sind allgegenwärtig beim Training von RL-Richtlinien mit anderen Richtlinienparametrisierungen; dennoch wurde vermutet, dass sie für diffusionsbasierte Richtlinien weniger effizient sind. Überraschenderweise zeigen wir, dass DPPO die stärkste Gesamtleistung und Effizienz bei der Feinabstimmung in gängigen Benchmarks im Vergleich zu anderen RL-Methoden für diffusionsbasierte Richtlinien und auch im Vergleich zur PG-Feinabstimmung anderer Richtlinienparametrisierungen erzielt. Durch experimentelle Untersuchungen stellen wir fest, dass DPPO einzigartige Synergien zwischen der Feinabstimmung von RL und der Diffusionsparametrisierung nutzt, was zu strukturierter und auf dem Mannigfaltigkeitsraum liegender Exploration, stabilem Training und hoher Richtlinienrobustheit führt. Wir zeigen weiterhin die Stärken von DPPO in einer Vielzahl realistischer Szenarien, einschließlich simulierter Roboter-Aufgaben mit Pixelbeobachtungen, sowie durch den Null-Schuss-Einsatz von simulationsgeschulten Richtlinien auf Roboterhardware in einer langfristigen, mehrstufigen Manipulationsaufgabe. Webseite mit Code: diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.io