ChatPaper.aiChatPaper

UniAff: Объединенное представление возможностей для использования инструментов и артикуляции с моделями видео-языка

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

September 30, 2024
Авторы: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI

Аннотация

Предыдущие исследования по робототехническому манипулированию основаны на ограниченном понимании основных ограничений и возможностей трехмерного движения. Для решения этих проблем мы предлагаем комплексную парадигму, названную UniAff, которая интегрирует трехмерное объектно-центрическое манипулирование и понимание задачи в единой формулировке. В частности, мы создали набор данных, помеченный ключевыми атрибутами, связанными с манипулированием, включающий 900 артикулированных объектов из 19 категорий и 600 инструментов из 12 категорий. Кроме того, мы используем MLLM для вывода объектно-центрических представлений для задач манипулирования, включая распознавание возможностей и рассуждения о трехмерных ограничениях движения. Обширные эксперименты как в симуляции, так и в реальных условиях показывают, что UniAff значительно улучшает обобщение робототехнического манипулирования для инструментов и артикулированных объектов. Мы надеемся, что UniAff послужит общим базовым уровнем для объединенных задач робототехнического манипулирования в будущем. Изображения, видео, набор данных и код опубликованы на веб-сайте проекта по адресу: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

Summary

AI-Generated Summary

PDF154November 13, 2024