ChatPaper.aiChatPaper

UniAff: Uma Representação Unificada de Possibilidades para o Uso de Ferramentas e Articulação com Modelos de Visão e Linguagem

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

September 30, 2024
Autores: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI

Resumo

Estudos anteriores sobre manipulação robótica são baseados em um entendimento limitado das restrições de movimento 3D subjacentes e affordances. Para enfrentar esses desafios, propomos um paradigma abrangente, denominado UniAff, que integra a manipulação centrada em objetos 3D e a compreensão da tarefa em uma formulação unificada. Especificamente, construímos um conjunto de dados rotulado com atributos-chave relacionados à manipulação, compreendendo 900 objetos articulados de 19 categorias e 600 ferramentas de 12 categorias. Além disso, aproveitamos MLLMs para inferir representações centradas em objetos para tarefas de manipulação, incluindo reconhecimento de affordance e raciocínio sobre restrições de movimento 3D. Experimentos abrangentes em ambientes de simulação e no mundo real indicam que o UniAff melhora significativamente a generalização da manipulação robótica para ferramentas e objetos articulados. Esperamos que o UniAff sirva como uma linha de base geral para tarefas de manipulação robótica unificadas no futuro. Imagens, vídeos, conjunto de dados e código estão publicados no site do projeto em: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

Summary

AI-Generated Summary

PDF154November 13, 2024