Revisiter la perception des parties articulées dans la manipulation robotique
Revisiting Articulated Parts Perception in Robot Manipulation
June 6, 2026
Auteurs: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI
Résumé
Nous sommes entourés de divers objets dotés de parties mobiles et articulées, par exemple une boîte, une poignée, une porte. Une perception précise et généralisable des parties articulées est essentielle pour améliorer les capacités de manipulation des robots. Partant de ce besoin, les travaux récents sur la perception des parties articulées ont suivi deux directions principales : l'une utilise une représentation basée sur la pose, qui nécessite un coût manuel élevé ; parallèlement, les méthodes basées sur l'affordance extraient le mouvement futur des objets à partir du suivi de points sans effort manuel supplémentaire, mais souffrent d'une faible qualité des données. Dans cet article, nous proposons une nouvelle représentation des parties articulées, la Structure Géométrique Primaire (GPS), une abstraction de la structure géométrique des parties visant à équilibrer évolutivité et qualité. Pour une collecte de données efficace et évolutive, la GPS est intégrée à un dispositif portable de Réalité Virtuelle (VR) et ne nécessite qu'une minute pour annoter une séquence d'objets. Cette annotation humaine directe offre une qualité supérieure à celle de l'affordance estimée. Grâce à ce système efficace VR-GPS, nous collectons 41 000 images pour 234 objets répartis en six classes de parties, et entraînons un modèle GPS généralisable à partir d'une seule image RGB-D de l'objet en entrée. Pour la manipulation d'objets, nous déployons une politique heuristique basée sur les prédictions GPS. Sans aucun réglage fin dans le domaine, notre méthode atteint un taux de réussite de 73 %, couvrant 270 états initiaux pour 9 objets. Notre code, nos données et notre outil réutilisable sont disponibles à l'adresse https://enlighten0707.github.io/gps.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.