UniAff: Una Rappresentazione Unificata delle Affordance per l'Uso degli Strumenti e l'Articolazione con i Modelli Visione-Linguaggio

Abstract

Studi precedenti sulla manipolazione robotica si basano su una comprensione limitata dei vincoli di movimento 3D sottostanti e delle affordances. Per affrontare queste sfide, proponiamo un paradigma completo, denominato UniAff, che integra la manipolazione centrata sugli oggetti in 3D e la comprensione del compito in una formulazione unificata. In particolare, abbiamo costruito un dataset etichettato con attributi chiave correlati alla manipolazione, comprendente 900 oggetti articolati di 19 categorie e 600 strumenti di 12 categorie. Inoltre, sfruttiamo MLLM per inferire rappresentazioni centrate sugli oggetti per compiti di manipolazione, inclusi il riconoscimento delle affordances e il ragionamento sui vincoli di movimento 3D. Esperimenti completi sia in simulazione che in ambienti reali indicano che UniAff migliora significativamente la generalizzazione della manipolazione robotica per strumenti e oggetti articolati. Speriamo che UniAff possa fungere da riferimento generale per compiti di manipolazione robotica unificati in futuro. Immagini, video, dataset e codice sono pubblicati sul sito web del progetto all'indirizzo: https://sites.google.com/view/uni-aff/home

English

Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

UniAff: Una Rappresentazione Unificata delle Affordance per l'Uso degli Strumenti e l'Articolazione con i Modelli Visione-Linguaggio

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Abstract

Support