Diffusiebeleid Beleidsoptimalisatie
Diffusion Policy Policy Optimization
September 1, 2024
Auteurs: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Samenvatting
We introduceren Diffusion Policy Policy Optimization, DPPO, een algoritmisch raamwerk dat best practices omvat voor het finetunen van diffusiegebaseerde beleidsfuncties (bijv. Diffusion Policy) in continue controle- en robotleertaken met behulp van de policy gradient (PG) methode uit reinforcement learning (RL). PG-methoden zijn alomtegenwoordig bij het trainen van RL-beleidsfuncties met andere beleidsparameterisaties; toch werd verondersteld dat ze minder efficiënt zouden zijn voor diffusiegebaseerde beleidsfuncties. Verrassend genoeg laten we zien dat DPPO de sterkste algehele prestaties en efficiëntie bereikt voor finetuning in gangbare benchmarks in vergelijking met andere RL-methoden voor diffusiegebaseerde beleidsfuncties en ook in vergelijking met PG-finetuning van andere beleidsparameterisaties. Door experimenteel onderzoek ontdekken we dat DPPO profiteert van unieke synergieën tussen RL-finetuning en de diffusieparameterisatie, wat leidt tot gestructureerde en op-manifold exploratie, stabiele training en robuust beleid. We demonstreren verder de sterke punten van DPPO in een reeks realistische settings, waaronder gesimuleerde robotica-taken met pixelobservaties, en via zero-shot implementatie van in simulatie getrainde beleidsfuncties op robot-hardware in een langetermijn, meerfasige manipulatietaak. Website met code: diffusion-ppo.github.io.
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.ioSummary
AI-Generated Summary