UniAff: Una Representación Unificada de Oportunidades para el Uso de Herramientas y Articulación con Modelos de Visión-Lenguaje
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
September 30, 2024
Autores: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI
Resumen
Los estudios previos sobre la manipulación robótica se basan en una comprensión limitada de las restricciones de movimiento 3D subyacentes y las capacidades. Para abordar estos desafíos, proponemos un paradigma integral, denominado UniAff, que integra la manipulación centrada en objetos en 3D y la comprensión de tareas en una formulación unificada. Específicamente, construimos un conjunto de datos etiquetado con atributos clave relacionados con la manipulación, que incluye 900 objetos articulados de 19 categorías y 600 herramientas de 12 categorías. Además, aprovechamos los MLLMs para inferir representaciones centradas en objetos para tareas de manipulación, incluido el reconocimiento de capacidades y el razonamiento sobre las restricciones de movimiento en 3D. Experimentos exhaustivos tanto en simulación como en entornos del mundo real indican que UniAff mejora significativamente la generalización de la manipulación robótica para herramientas y objetos articulados. Esperamos que UniAff sirva como un punto de referencia general para tareas de manipulación robótica unificadas en el futuro. Las imágenes, videos, conjunto de datos y código se publican en el sitio web del proyecto en: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding
of the underlying 3D motion constraints and affordances. To address these
challenges, we propose a comprehensive paradigm, termed UniAff, that integrates
3D object-centric manipulation and task understanding in a unified formulation.
Specifically, we constructed a dataset labeled with manipulation-related key
attributes, comprising 900 articulated objects from 19 categories and 600 tools
from 12 categories. Furthermore, we leverage MLLMs to infer object-centric
representations for manipulation tasks, including affordance recognition and
reasoning about 3D motion constraints. Comprehensive experiments in both
simulation and real-world settings indicate that UniAff significantly improves
the generalization of robotic manipulation for tools and articulated objects.
We hope that UniAff will serve as a general baseline for unified robotic
manipulation tasks in the future. Images, videos, dataset, and code are
published on the project website at:https://sites.google.com/view/uni-aff/homeSummary
AI-Generated Summary