Переосмысление восприятия сочлененных частей в манипуляциях роботов
Revisiting Articulated Parts Perception in Robot Manipulation
June 6, 2026
Авторы: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI
Аннотация
Мы окружены различными объектами с подвижными сочленёнными частями, например, коробками, ручками, дверями. Точное и обобщаемое восприятие сочленённых частей необходимо для расширения возможностей роботизированного манипулирования. Исходя из этой потребности, недавние усилия в области восприятия сочленённых частей развивались в двух основных направлениях: одно направление использует представление на основе поз, требующее высоких ручных затрат; параллельно методы, основанные на аффордансах, извлекают будущее движение объектов из отслеживания точек без дополнительных ручных усилий, но страдают от низкого качества данных. В данной статье мы предлагаем новое представление сочленённых частей — Геометрическую Первичную Структуру (GPS), абстракцию геометрической структуры части, обеспечивающую баланс между масштабируемостью и качеством. Для эффективного и масштабируемого сбора данных GPS интегрирована с портативным устройством виртуальной реальности (VR) и требует всего одной минуты для аннотирования одной последовательности объектов. Эта прямая человеческая аннотация обеспечивает более высокое качество, чем оценённый аффорданс. С помощью этой эффективной системы VR-GPS мы собрали 41 000 кадров для 234 объектов по шести классам частей и обучили обобщаемую модель GPS, принимающую на вход одно RGB-D изображение объекта. Для манипулирования объектами мы развернули эвристическую политику на основе предсказаний GPS. Без какой-либо внутридоменной точной настройки наш метод достигает 73% успеха, охватывая 270 начальных состояний для 9 объектов. Наш код, данные и повторно используемый инструмент доступны по адресу https://enlighten0707.github.io/gps.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.