UniAff: Uma Representação Unificada de Possibilidades para o Uso de Ferramentas e Articulação com Modelos de Visão e Linguagem

Resumo

Estudos anteriores sobre manipulação robótica são baseados em um entendimento limitado das restrições de movimento 3D subjacentes e affordances. Para enfrentar esses desafios, propomos um paradigma abrangente, denominado UniAff, que integra a manipulação centrada em objetos 3D e a compreensão da tarefa em uma formulação unificada. Especificamente, construímos um conjunto de dados rotulado com atributos-chave relacionados à manipulação, compreendendo 900 objetos articulados de 19 categorias e 600 ferramentas de 12 categorias. Além disso, aproveitamos MLLMs para inferir representações centradas em objetos para tarefas de manipulação, incluindo reconhecimento de affordance e raciocínio sobre restrições de movimento 3D. Experimentos abrangentes em ambientes de simulação e no mundo real indicam que o UniAff melhora significativamente a generalização da manipulação robótica para ferramentas e objetos articulados. Esperamos que o UniAff sirva como uma linha de base geral para tarefas de manipulação robótica unificadas no futuro. Imagens, vídeos, conjunto de dados e código estão publicados no site do projeto em: https://sites.google.com/view/uni-aff/home

English

Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

UniAff: Uma Representação Unificada de Possibilidades para o Uso de Ferramentas e Articulação com Modelos de Visão e Linguagem

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Resumo

Support