ChatPaper.aiChatPaper

Ottimizzazione della Politica di Diffusione

Diffusion Policy Policy Optimization

September 1, 2024
Autori: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI

Abstract

Introduciamo Diffusion Policy Policy Optimization, DPPO, un framework algoritmico che include le migliori pratiche per ottimizzare le politiche basate sulla diffusione (ad es. Diffusion Policy) in compiti di controllo continuo e apprendimento robotico utilizzando il metodo del gradiente della politica (PG) dall'apprendimento per rinforzo (RL). I metodi PG sono onnipresenti nell'addestramento delle politiche RL con altre parametrizzazioni delle politiche; tuttavia, si era ipotizzato che fossero meno efficienti per le politiche basate sulla diffusione. Sorprendentemente, dimostriamo che DPPO raggiunge le migliori prestazioni complessive ed efficienza per l'ottimizzazione in benchmark comuni rispetto ad altri metodi RL per le politiche basate sulla diffusione e anche rispetto all'ottimizzazione PG di altre parametrizzazioni delle politiche. Attraverso un'indagine sperimentale, scopriamo che DPPO sfrutta sinergie uniche tra l'ottimizzazione RL e la parametrizzazione della diffusione, portando a esplorazioni strutturate e on-manifold, ad un addestramento stabile e a una forte robustezza della politica. Dimostriamo inoltre i punti di forza di DPPO in una serie di contesti realistici, inclusi compiti robotici simulati con osservazioni pixel e tramite il rilascio a zero-shot di politiche addestrate in simulazione sull'hardware del robot in un compito di manipolazione a lungo termine a più fasi. Sito web con codice: diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic framework including best practices for fine-tuning diffusion-based policies (e.g. Diffusion Policy) in continuous control and robot learning tasks using the policy gradient (PG) method from reinforcement learning (RL). PG methods are ubiquitous in training RL policies with other policy parameterizations; nevertheless, they had been conjectured to be less efficient for diffusion-based policies. Surprisingly, we show that DPPO achieves the strongest overall performance and efficiency for fine-tuning in common benchmarks compared to other RL methods for diffusion-based policies and also compared to PG fine-tuning of other policy parameterizations. Through experimental investigation, we find that DPPO takes advantage of unique synergies between RL fine-tuning and the diffusion parameterization, leading to structured and on-manifold exploration, stable training, and strong policy robustness. We further demonstrate the strengths of DPPO in a range of realistic settings, including simulated robotic tasks with pixel observations, and via zero-shot deployment of simulation-trained policies on robot hardware in a long-horizon, multi-stage manipulation task. Website with code: diffusion-ppo.github.io
PDF202November 16, 2024