Optimización de Políticas de Difusión
Diffusion Policy Policy Optimization
September 1, 2024
Autores: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Resumen
Introducimos la Optimización de Política de Difusión, DPPO, un marco algorítmico que incluye las mejores prácticas para ajustar políticas basadas en difusión (por ejemplo, Política de Difusión) en tareas de control continuo y aprendizaje de robots utilizando el método de gradiente de política (PG) del aprendizaje por refuerzo (RL). Los métodos PG son ubicuos en el entrenamiento de políticas de RL con otras parametrizaciones de política; sin embargo, se había conjeturado que eran menos eficientes para políticas basadas en difusión. Sorprendentemente, mostramos que DPPO logra el mejor rendimiento general y eficiencia para el ajuste fino en benchmarks comunes en comparación con otros métodos de RL para políticas basadas en difusión y también en comparación con el ajuste fino de PG de otras parametrizaciones de política. A través de una investigación experimental, descubrimos que DPPO aprovecha sinergias únicas entre el ajuste fino de RL y la parametrización de difusión, lo que conduce a una exploración estructurada y en el manifol, un entrenamiento estable y una robustez de política sólida. Además, demostramos las fortalezas de DPPO en una variedad de entornos realistas, incluidas tareas robóticas simuladas con observaciones de píxeles, y a través de la implementación sin entrenamiento previo de políticas entrenadas en simulación en hardware de robot en una tarea de manipulación de múltiples etapas y largo horizonte. Sitio web con código: diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.ioSummary
AI-Generated Summary