CARP:粗視覚から微視覚への自己回帰予測を通じた視覚運動ポリシー学習
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
著者: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
要旨
ロボティック視覚運動ポリシー学習において、拡散ベースのモデルは、従来の自己回帰モデルと比較して、アクション軌跡生成の精度を向上させることで著しい成功を収めています。ただし、複数のノイズ除去ステップや複雑な制約からの限られた柔軟性により、効率性に問題があります。本論文では、視覚運動ポリシー学習のための革新的なパラダイムであるCoarse-to-Fine AutoRegressive Policy(CARP)を紹介します。CARPは、自己回帰型アクション生成プロセスを粗粒度から細粒度、次のスケールアプローチとして再定義します。CARPは、アクション生成を2段階に分割します。まず、アクションオートエンコーダーがアクションシーケンス全体のマルチスケール表現を学習し、次に、GPTスタイルのトランスフォーマーが粗粒度から細粒度の自己回帰プロセスを通じてシーケンス予測を洗練します。この直感的でわかりやすいアプローチは、非常に正確で滑らかなアクションを生成し、効率性を維持しながら、拡散ベースのポリシーと同等以上の性能に匹敵するかそれを上回ります。我々は、単一タスクおよびマルチタスクシナリオ、状態ベースおよび画像ベースのシミュレーションベンチマーク、および実世界のタスクを含むさまざまな設定で包括的な評価を行います。CARPは競争力のある成功率を達成し、最新のポリシーと比較して最大10%の改善を実現し、高性能で効率的かつ柔軟なパラダイムを確立し、ロボティックタスクにおけるアクション生成において10倍高速な推論を提供します。
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary