Оптимизация политики диффузии
Diffusion Policy Policy Optimization
September 1, 2024
Авторы: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
Аннотация
Мы представляем алгоритмический фреймворк Diffusion Policy Policy Optimization, DPPO, включающий bewt практики для настройки политик на основе диффузии (например, Diffusion Policy) в задачах непрерывного управления и обучения роботов с использованием метода градиента политики (PG) из обучения с подкреплением (RL). Методы PG широко используются при обучении политик RL с другими параметризациями политики; тем не менее, их считали менее эффективными для политик на основе диффузии. Удивительно, мы показываем, что DPPO достигает наилучшей общей производительности и эффективности для настройки в общих бенчмарках по сравнению с другими методами RL для политик на основе диффузии, а также по сравнению с настройкой PG других параметризаций политики. Через экспериментальное исследование мы обнаруживаем, что DPPO использует уникальные синергии между настройкой RL и параметризацией диффузии, что приводит к структурированному и на-многообразному исследованию, стабильному обучению и высокой устойчивости политики. Мы демонстрируем преимущества DPPO в ряде реалистичных сценариев, включая симулированные задачи с роботами с пиксельными наблюдениями, а также через нулевое развертывание политик, обученных в симуляции, на аппаратуре робота в задаче манипулирования на длительном горизонте и в многоэтапной задаче. Веб-сайт с кодом: diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.ioSummary
AI-Generated Summary