UniAff:ツール使用のためのアフォーダンスとビジョン言語モデルとの関連付けのための統一表現
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
September 30, 2024
著者: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI
要旨
ロボットの操作に関する以前の研究は、基盤となる3Dモーションの制約と利用可能性に関する理解が限られている。これらの課題に対処するために、我々はUniAffと呼ばれる包括的なパラダイムを提案する。これは、3Dオブジェクト中心の操作とタスク理解を統一した枠組みで統合するものである。具体的には、19のカテゴリからの900の可動式オブジェクトと12のカテゴリからの600のツールで構成される、操作に関連する主要属性でラベル付けされたデータセットを構築した。さらに、MLLMsを活用して、操作に関連する表現を推論し、利用可能性の認識や3Dモーションの制約に関する推論を行った。シミュレーションと実世界の両方での包括的な実験により、UniAffがツールと可動式オブジェクトのロボット操作の汎化を大幅に向上させることが示された。UniAffが将来の統一されたロボット操作タスクの一般的な基準として機能することを期待している。画像、動画、データセット、およびコードは、プロジェクトのウェブサイトで公開されています:https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding
of the underlying 3D motion constraints and affordances. To address these
challenges, we propose a comprehensive paradigm, termed UniAff, that integrates
3D object-centric manipulation and task understanding in a unified formulation.
Specifically, we constructed a dataset labeled with manipulation-related key
attributes, comprising 900 articulated objects from 19 categories and 600 tools
from 12 categories. Furthermore, we leverage MLLMs to infer object-centric
representations for manipulation tasks, including affordance recognition and
reasoning about 3D motion constraints. Comprehensive experiments in both
simulation and real-world settings indicate that UniAff significantly improves
the generalization of robotic manipulation for tools and articulated objects.
We hope that UniAff will serve as a general baseline for unified robotic
manipulation tasks in the future. Images, videos, dataset, and code are
published on the project website at:https://sites.google.com/view/uni-aff/homeSummary
AI-Generated Summary