Otimização de Política de Difusão

Resumo

Apresentamos a Otimização de Política de Difusão, DPPO, um framework algorítmico que inclui as melhores práticas para ajustar políticas baseadas em difusão (por exemplo, Política de Difusão) em tarefas de controle contínuo e aprendizado de robôs usando o método de gradiente de política (PG) do aprendizado por reforço (RL). Métodos PG são onipresentes no treinamento de políticas RL com outras parametrizações de política; no entanto, havia a conjectura de que seriam menos eficientes para políticas baseadas em difusão. Surpreendentemente, mostramos que o DPPO alcança o melhor desempenho geral e eficiência para ajuste fino em benchmarks comuns em comparação com outros métodos RL para políticas baseadas em difusão e também em comparação com o ajuste fino PG de outras parametrizações de política. Através de investigação experimental, descobrimos que o DPPO aproveita sinergias únicas entre o ajuste fino RL e a parametrização de difusão, resultando em exploração estruturada e em-manifold, treinamento estável e forte robustez da política. Demonstramos ainda as vantagens do DPPO em uma variedade de cenários realistas, incluindo tarefas robóticas simuladas com observações de pixels, e por meio da implantação de políticas treinadas em simulação em hardware de robô em uma tarefa de manipulação de vários estágios de longo prazo. Website com código: diffusion-ppo.github.io

English

We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic framework including best practices for fine-tuning diffusion-based policies (e.g. Diffusion Policy) in continuous control and robot learning tasks using the policy gradient (PG) method from reinforcement learning (RL). PG methods are ubiquitous in training RL policies with other policy parameterizations; nevertheless, they had been conjectured to be less efficient for diffusion-based policies. Surprisingly, we show that DPPO achieves the strongest overall performance and efficiency for fine-tuning in common benchmarks compared to other RL methods for diffusion-based policies and also compared to PG fine-tuning of other policy parameterizations. Through experimental investigation, we find that DPPO takes advantage of unique synergies between RL fine-tuning and the diffusion parameterization, leading to structured and on-manifold exploration, stable training, and strong policy robustness. We further demonstrate the strengths of DPPO in a range of realistic settings, including simulated robotic tasks with pixel observations, and via zero-shot deployment of simulation-trained policies on robot hardware in a long-horizon, multi-stage manipulation task. Website with code: diffusion-ppo.github.io