UniAff: Een Verenigde Representatie van Mogelijkheden voor Het Gebruik van Gereedschap en Articulatie met Visie-Taal Modellen
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
September 30, 2024
Auteurs: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI
Samenvatting
Eerdere studies over robotmanipulatie zijn gebaseerd op een beperkt begrip van de onderliggende 3D-bewegingsbeperkingen en affordances. Om deze uitdagingen aan te pakken, stellen we een allesomvattend paradigma voor, genaamd UniAff, dat 3D-objectgerichte manipulatie en taakbegrip integreert in een verenigde formulering. Specifiek hebben we een dataset gecreëerd die gelabeld is met manipulatiegerelateerde sleutelkenmerken, bestaande uit 900 gearticuleerde objecten van 19 categorieën en 600 gereedschappen van 12 categorieën. Bovendien maken we gebruik van MLLM's om objectgerichte representaties te deduceren voor manipulatietaken, inclusief affordance-herkenning en redeneren over 3D-bewegingsbeperkingen. Uitgebreide experimenten in zowel simulatie- als echte omgevingen tonen aan dat UniAff aanzienlijk de generalisatie van robotmanipulatie voor gereedschappen en gearticuleerde objecten verbetert. We hopen dat UniAff zal dienen als een algemene basislijn voor verenigde robotmanipulatietaken in de toekomst. Afbeeldingen, video's, dataset en code zijn gepubliceerd op de projectwebsite op: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding
of the underlying 3D motion constraints and affordances. To address these
challenges, we propose a comprehensive paradigm, termed UniAff, that integrates
3D object-centric manipulation and task understanding in a unified formulation.
Specifically, we constructed a dataset labeled with manipulation-related key
attributes, comprising 900 articulated objects from 19 categories and 600 tools
from 12 categories. Furthermore, we leverage MLLMs to infer object-centric
representations for manipulation tasks, including affordance recognition and
reasoning about 3D motion constraints. Comprehensive experiments in both
simulation and real-world settings indicate that UniAff significantly improves
the generalization of robotic manipulation for tools and articulated objects.
We hope that UniAff will serve as a general baseline for unified robotic
manipulation tasks in the future. Images, videos, dataset, and code are
published on the project website at:https://sites.google.com/view/uni-aff/homeSummary
AI-Generated Summary