Optimisation de la Politique de Diffusion
Diffusion Policy Policy Optimization
September 1, 2024
Auteurs: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Résumé
Nous présentons Diffusion Policy Policy Optimization, DPPO, un cadre algorithmique comprenant les meilleures pratiques pour le réglage fin des politiques basées sur la diffusion (par exemple, la Politique de Diffusion) dans des tâches d'apprentissage de contrôle continu et de robotique en utilisant la méthode du gradient de politique (PG) de l'apprentissage par renforcement (RL). Les méthodes PG sont omniprésentes dans l'entraînement des politiques RL avec d'autres paramétrisations de politiques; néanmoins, on avait supposé qu'elles étaient moins efficaces pour les politiques basées sur la diffusion. De manière surprenante, nous montrons que DPPO atteint les meilleures performances globales et l'efficacité pour le réglage fin dans des benchmarks courants par rapport à d'autres méthodes RL pour les politiques basées sur la diffusion et également par rapport au réglage fin PG d'autres paramétrisations de politiques. À travers des investigations expérimentales, nous constatons que DPPO tire parti des synergies uniques entre le réglage fin RL et la paramétrisation de la diffusion, conduisant à une exploration structurée et sur-manière, un entraînement stable et une forte robustesse de la politique. Nous démontrons en outre les forces de DPPO dans une gamme de contextes réalistes, y compris des tâches robotiques simulées avec des observations de pixels, et via le déploiement sans entraînement de politiques entraînées en simulation sur du matériel robotique dans une tâche de manipulation à long terme et à plusieurs étapes. Site web avec le code : diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.ioSummary
AI-Generated Summary