ロボット操作のためのシナジスティックで汎用性のある効率的なデュアルシステムに向けて
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
著者: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
要旨
多様で動的な環境で運用する汎用性の高いロボティックシステムへの需要の増加は、大規模なクロスエンボディメントデータコーパスを活用して広範な適応性と高度な推論を促進する一般化ポリシーの重要性を強調しています。ただし、一般化ポリシーは非効率な推論と高コストなトレーニングに苦しむ可能性があります。それに対し、専門家ポリシーは特定のドメインデータに適したものであり、効率的なタスクレベルの精度を発揮します。しかし、広範囲のアプリケーションに対する一般化能力が不足しています。これらの観察に触発され、我々はRoboDualを紹介します。これは、一般化ポリシーと専門家ポリシーの長所を補完する相乗効果のあるデュアルシステムです。マルチステップアクション展開向けの拡散トランスフォーマーベースの専門家が、高レベルなタスク理解と視覚言語アクション(VLA)ベースの一般化の離散化されたアクション出力に絶妙に適合するように設計されています。OpenVLAと比較して、RoboDualは、専門家ポリシーを導入することで、わずか20Mの訓練可能なパラメータで実世界の設定で26.7%の改善とCALVINで12%の利益を達成します。デモデータのわずか5%で強力なパフォーマンスを維持し、実世界展開で3.8倍の制御頻度を可能にします。コードは公開されます。プロジェクトページは次の場所にあります:https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary