ChatPaper.aiChatPaper

UniAff: Eine einheitliche Darstellung von Handlungsmöglichkeiten für die Nutzung von Werkzeugen und Artikulation mit Vision-Sprach-Modellen

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

September 30, 2024
Autoren: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI

Zusammenfassung

Frühere Studien zur robotergestützten Manipulation basieren auf einem begrenzten Verständnis der zugrunde liegenden 3D-Bewegungsbeschränkungen und Möglichkeiten. Um diesen Herausforderungen zu begegnen, schlagen wir ein umfassendes Paradigma namens UniAff vor, das die 3D-objektorientierte Manipulation und die Aufgabenverständnis in einer vereinheitlichten Formulierung integriert. Konkret haben wir einen Datensatz erstellt, der mit manipulationsspezifischen Schlüsselattributen versehen ist und 900 gegliederte Objekte aus 19 Kategorien und 600 Werkzeuge aus 12 Kategorien umfasst. Darüber hinaus nutzen wir MLLMs, um objektorientierte Repräsentationen für Manipulationsaufgaben zu inferieren, einschließlich der Erkennung von Möglichkeiten und der Überlegung zu 3D-Bewegungsbeschränkungen. Umfassende Experimente sowohl in Simulationen als auch in realen Umgebungen zeigen, dass UniAff die Verallgemeinerung der robotergestützten Manipulation für Werkzeuge und gegliederte Objekte signifikant verbessert. Wir hoffen, dass UniAff in Zukunft als allgemeine Referenz für vereinheitlichte robotergestützte Manipulationsaufgaben dienen wird. Bilder, Videos, Datensatz und Code sind auf der Projektwebsite unter folgendem Link veröffentlicht: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

Summary

AI-Generated Summary

PDF154November 13, 2024