Otimização de Política de Difusão
Diffusion Policy Policy Optimization
September 1, 2024
Autores: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Resumo
Apresentamos a Otimização de Política de Difusão, DPPO, um framework algorítmico que inclui as melhores práticas para ajustar políticas baseadas em difusão (por exemplo, Política de Difusão) em tarefas de controle contínuo e aprendizado de robôs usando o método de gradiente de política (PG) do aprendizado por reforço (RL). Métodos PG são onipresentes no treinamento de políticas RL com outras parametrizações de política; no entanto, havia a conjectura de que seriam menos eficientes para políticas baseadas em difusão. Surpreendentemente, mostramos que o DPPO alcança o melhor desempenho geral e eficiência para ajuste fino em benchmarks comuns em comparação com outros métodos RL para políticas baseadas em difusão e também em comparação com o ajuste fino PG de outras parametrizações de política. Através de investigação experimental, descobrimos que o DPPO aproveita sinergias únicas entre o ajuste fino RL e a parametrização de difusão, resultando em exploração estruturada e em-manifold, treinamento estável e forte robustez da política. Demonstramos ainda as vantagens do DPPO em uma variedade de cenários realistas, incluindo tarefas robóticas simuladas com observações de pixels, e por meio da implantação de políticas treinadas em simulação em hardware de robô em uma tarefa de manipulação de vários estágios de longo prazo. Website com código: diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.io