UniAff : Une représentation unifiée des affordances pour l'utilisation d'outils et l'articulation avec les modèles vision-langage
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
September 30, 2024
Auteurs: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI
Résumé
Les études précédentes sur la manipulation robotique sont basées sur une compréhension limitée des contraintes de mouvement 3D sous-jacentes et des affordances. Pour relever ces défis, nous proposons un paradigme complet, appelé UniAff, qui intègre la manipulation centrée sur les objets en 3D et la compréhension des tâches dans une formulation unifiée. Plus précisément, nous avons construit un ensemble de données étiqueté avec des attributs clés liés à la manipulation, comprenant 900 objets articulés de 19 catégories et 600 outils de 12 catégories. De plus, nous exploitons des MLLM pour inférer des représentations centrées sur les objets pour les tâches de manipulation, y compris la reconnaissance des affordances et la réflexion sur les contraintes de mouvement 3D. Des expériences complètes dans des environnements de simulation et du monde réel indiquent qu'UniAff améliore significativement la généralisation de la manipulation robotique pour les outils et les objets articulés. Nous espérons qu'UniAff servira de référence générale pour les tâches de manipulation robotique unifiées à l'avenir. Les images, vidéos, l'ensemble de données et le code sont publiés sur le site web du projet à l'adresse : https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding
of the underlying 3D motion constraints and affordances. To address these
challenges, we propose a comprehensive paradigm, termed UniAff, that integrates
3D object-centric manipulation and task understanding in a unified formulation.
Specifically, we constructed a dataset labeled with manipulation-related key
attributes, comprising 900 articulated objects from 19 categories and 600 tools
from 12 categories. Furthermore, we leverage MLLMs to infer object-centric
representations for manipulation tasks, including affordance recognition and
reasoning about 3D motion constraints. Comprehensive experiments in both
simulation and real-world settings indicate that UniAff significantly improves
the generalization of robotic manipulation for tools and articulated objects.
We hope that UniAff will serve as a general baseline for unified robotic
manipulation tasks in the future. Images, videos, dataset, and code are
published on the project website at:https://sites.google.com/view/uni-aff/homeSummary
AI-Generated Summary