UniAff: Объединенное представление возможностей для использования инструментов и артикуляции с моделями видео-языка

Аннотация

Предыдущие исследования по робототехническому манипулированию основаны на ограниченном понимании основных ограничений и возможностей трехмерного движения. Для решения этих проблем мы предлагаем комплексную парадигму, названную UniAff, которая интегрирует трехмерное объектно-центрическое манипулирование и понимание задачи в единой формулировке. В частности, мы создали набор данных, помеченный ключевыми атрибутами, связанными с манипулированием, включающий 900 артикулированных объектов из 19 категорий и 600 инструментов из 12 категорий. Кроме того, мы используем MLLM для вывода объектно-центрических представлений для задач манипулирования, включая распознавание возможностей и рассуждения о трехмерных ограничениях движения. Обширные эксперименты как в симуляции, так и в реальных условиях показывают, что UniAff значительно улучшает обобщение робототехнического манипулирования для инструментов и артикулированных объектов. Мы надеемся, что UniAff послужит общим базовым уровнем для объединенных задач робототехнического манипулирования в будущем. Изображения, видео, набор данных и код опубликованы на веб-сайте проекта по адресу: https://sites.google.com/view/uni-aff/home

English

Previous studies on robotic manipulation are based on a limited understanding of the underlying 3D motion constraints and affordances. To address these challenges, we propose a comprehensive paradigm, termed UniAff, that integrates 3D object-centric manipulation and task understanding in a unified formulation. Specifically, we constructed a dataset labeled with manipulation-related key attributes, comprising 900 articulated objects from 19 categories and 600 tools from 12 categories. Furthermore, we leverage MLLMs to infer object-centric representations for manipulation tasks, including affordance recognition and reasoning about 3D motion constraints. Comprehensive experiments in both simulation and real-world settings indicate that UniAff significantly improves the generalization of robotic manipulation for tools and articulated objects. We hope that UniAff will serve as a general baseline for unified robotic manipulation tasks in the future. Images, videos, dataset, and code are published on the project website at:https://sites.google.com/view/uni-aff/home

UniAff: Объединенное представление возможностей для использования инструментов и артикуляции с моделями видео-языка

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Аннотация

Support