ChatPaper.aiChatPaper

UniAff: Una Rappresentazione Unificata delle Affordance per l'Uso degli Strumenti e l'Articolazione con i Modelli Visione-Linguaggio

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

September 30, 2024
Autori: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI

Abstract

Studi precedenti sulla manipolazione robotica si basano su una comprensione limitata dei vincoli di movimento 3D sottostanti e delle affordances. Per affrontare queste sfide, proponiamo un paradigma completo, denominato UniAff, che integra la manipolazione centrata sugli oggetti in 3D e la comprensione del compito in una formulazione unificata. In particolare, abbiamo costruito un dataset etichettato con attributi chiave correlati alla manipolazione, comprendente 900 oggetti articolati di 19 categorie e 600 strumenti di 12 categorie. Inoltre, sfruttiamo MLLM per inferire rappresentazioni centrate sugli oggetti per compiti di manipolazione, inclusi il riconoscimento delle affordances e il ragionamento sui vincoli di movimento 3D. Esperimenti completi sia in simulazione che in ambienti reali indicano che UniAff migliora significativamente la generalizzazione della manipolazione robotica per strumenti e oggetti articolati. Speriamo che UniAff possa fungere da riferimento generale per compiti di manipolazione robotica unificati in futuro. Immagini, video, dataset e codice sono pubblicati sul sito web del progetto all'indirizzo: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home
PDF154November 13, 2024