Herziening van de perceptie van gelede onderdelen in robotmanipulatie
Revisiting Articulated Parts Perception in Robot Manipulation
June 6, 2026
Auteurs: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI
Samenvatting
We worden omringd door diverse objecten met beweegbare, gearticuleerde onderdelen, zoals dozen, handvatten en deuren. Een nauwkeurige en generaliseerbare perceptie van gearticuleerde onderdelen is essentieel om robotmanipulatievaardigheden te verbeteren. Voortbouwend op deze behoefte zijn recente inspanningen op het gebied van perceptie van gearticuleerde onderdelen in twee hoofdlijnen te verdelen: Eén onderzoekslijn maakt gebruik van pose-gebaseerde representatie, wat hoge handmatige kosten met zich meebrengt; parallel hieraan extraheren affordance-gebaseerde methoden toekomstige objectbeweging uit punttracking zonder extra handmatige inspanning, maar lijden onder data van lage kwaliteit. In dit artikel stellen we een nieuwe representatie van gearticuleerde onderdelen voor, Geometrische Primaire Structuur (GPS), een abstractie van de geometrische structuur van onderdelen om schaalbaarheid en kwaliteit in balans te brengen. Voor een efficiënte en schaalbare dataverzameling wordt GPS geïntegreerd met een draagbaar Virtual Reality (VR)-apparaat en vereist slechts één minuut om één objectsequentie te annoteren. Deze directe menselijke annotatie levert hogere kwaliteit dan de geschatte affordance. Met dit efficiënte VR-GPS-systeem verzamelen we 41K frames voor 234 objecten over zes onderdeelklassen en trainen we een generaliseerbaar GPS-model met een enkele RGB-D objectafbeelding als invoer. Voor objectmanipulatie implementeren we een heuristisch beleid gebaseerd op GPS-voorspelling. Zonder enige domeinspecifieke fine-tuning behaalt onze methode een succespercentage van 73%, waarbij 270 begintoestanden voor 9 objecten worden gedekt. Onze code, data en herbruikbare tool zijn beschikbaar op https://enlighten0707.github.io/gps.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.