Ag2Manip: エージェント非依存の視覚表現と行動表現を用いた新しい操作スキルの学習
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
April 26, 2024
著者: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI
要旨
新たな操作タスクを学習可能な自律ロボットシステムは、製造業からサービス自動化に至るまで、産業を変革する可能性を秘めています。しかし、現代の手法(例えばVIPやR3M)は依然として重大な課題に直面しており、特にロボットの実装形態間のドメインギャップや、特定の行動空間内での成功したタスク実行の希薄さが、タスク表現の不整合や曖昧さを引き起こしています。本論文では、これらの課題を克服するためのフレームワークとしてAg2Manip(Agent-Agnostic representations for Manipulation)を提案します。Ag2Manipは、以下の2つの主要な革新を通じてこれらの課題に対処します:1) 人間の操作動画から導出された、実装形態の詳細を隠蔽することで汎用性を高めた新しいエージェント非依存の視覚表現、2) ロボットの運動学を普遍的なエージェントプロキシに抽象化し、エンドエフェクタと物体間の重要な相互作用に焦点を当てたエージェント非依存の行動表現。Ag2Manipは、FrankaKitchen、ManiSkill、PartManipなどのシミュレーションベンチマークにおいて、ドメイン固有のデモンストレーションなしで325%の性能向上を示しました。アブレーションスタディは、この成功における視覚表現と行動表現の本質的な貢献を強調しています。さらに、実世界での評価を拡張した結果、Ag2Manipは模倣学習の成功率を50%から77.5%に大幅に向上させ、シミュレーション環境と物理環境の両方での有効性と汎用性を実証しました。
English
Autonomous robotic systems capable of learning novel manipulation tasks are
poised to transform industries from manufacturing to service automation.
However, modern methods (e.g., VIP and R3M) still face significant hurdles,
notably the domain gap among robotic embodiments and the sparsity of successful
task executions within specific action spaces, resulting in misaligned and
ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic
representations for Manipulation), a framework aimed at surmounting these
challenges through two key innovations: a novel agent-agnostic visual
representation derived from human manipulation videos, with the specifics of
embodiments obscured to enhance generalizability; and an agent-agnostic action
representation abstracting a robot's kinematics to a universal agent proxy,
emphasizing crucial interactions between end-effector and object. Ag2Manip's
empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill,
and PartManip shows a 325% increase in performance, achieved without
domain-specific demonstrations. Ablation studies underline the essential
contributions of the visual and action representations to this success.
Extending our evaluations to the real world, Ag2Manip significantly improves
imitation learning success rates from 50% to 77.5%, demonstrating its
effectiveness and generalizability across both simulated and physical
environments.Summary
AI-Generated Summary