拡散ポリシーのポリシー最適化
Diffusion Policy Policy Optimization
September 1, 2024
著者: Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
cs.AI
要旨
私たちは、連続制御およびロボット学習タスクにおいて拡散ベースのポリシー(例:拡散ポリシー)を微調整するためのベストプラクティスを含むアルゴリズムフレームワークであるDiffusion Policy Policy Optimization(DPPO)を紹介します。これには、強化学習(RL)からのポリシーグラディエント(PG)メソッドを使用しています。PGメソッドは、他のポリシーパラメータ化を使用してRLポリシーをトレーニングする際に広く使用されていますが、拡散ベースのポリシーに対しては効率が低いと推測されていました。驚くべきことに、DPPOが、一般的なベンチマークにおいて他のRLメソッドや他のポリシーパラメータ化のPG微調整と比較して、最も強力な全体的なパフォーマンスと効率を達成することを示しています。実験的な調査により、DPPOがRL微調整と拡散パラメータ化の間の独自のシナジーを活用し、構造化されたマニフォールド上の探索、安定したトレーニング、強力なポリシーの堅牢性をもたらすことがわかりました。さらに、ピクセル観測を使用したシミュレートされたロボティックタスクや、長期間のマルチステージ操作タスクにおけるロボットハードウェア上のシミュレーショントレーニングされたポリシーのゼロショット展開を通じて、DPPOの強みを実証しています。コード付きのウェブサイト:diffusion-ppo.github.io
English
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic
framework including best practices for fine-tuning diffusion-based policies
(e.g. Diffusion Policy) in continuous control and robot learning tasks using
the policy gradient (PG) method from reinforcement learning (RL). PG methods
are ubiquitous in training RL policies with other policy parameterizations;
nevertheless, they had been conjectured to be less efficient for
diffusion-based policies. Surprisingly, we show that DPPO achieves the
strongest overall performance and efficiency for fine-tuning in common
benchmarks compared to other RL methods for diffusion-based policies and also
compared to PG fine-tuning of other policy parameterizations. Through
experimental investigation, we find that DPPO takes advantage of unique
synergies between RL fine-tuning and the diffusion parameterization, leading to
structured and on-manifold exploration, stable training, and strong policy
robustness. We further demonstrate the strengths of DPPO in a range of
realistic settings, including simulated robotic tasks with pixel observations,
and via zero-shot deployment of simulation-trained policies on robot hardware
in a long-horizon, multi-stage manipulation task. Website with code:
diffusion-ppo.github.ioSummary
AI-Generated Summary