ChatPaper.aiChatPaper

Revisitando la Percepción de Partes Articuladas en la Manipulación Robótica

Revisiting Articulated Parts Perception in Robot Manipulation

June 6, 2026
Autores: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI

Resumen

Estamos rodeados de diversos objetos con partes móviles y articuladas, como cajas, mangos o puertas. Una percepción precisa y generalizable de las partes articuladas es esencial para mejorar las capacidades de manipulación robótica. Atendiendo a esta necesidad, los esfuerzos recientes en la percepción de partes articuladas han seguido dos direcciones principales: una línea de trabajo utiliza representaciones basadas en pose, que requieren un alto costo manual; en paralelo, los métodos basados en affordance extraen el movimiento futuro de los objetos a partir del seguimiento de puntos sin esfuerzo manual adicional, pero sufren de datos de baja calidad. En este artículo, proponemos una nueva representación de partes articuladas, la Estructura Geométrica Primaria (GPS, por sus siglas en inglés), una abstracción de la estructura geométrica de las partes para equilibrar escalabilidad y calidad. Para una recolección de datos eficiente y escalable, GPS se integra con un dispositivo portátil de Realidad Virtual (VR) y requiere solo un minuto para anotar una secuencia de objetos. Esta anotación humana directa proporciona una mayor calidad que la affordance estimada. Con este sistema eficiente VR-GPS, recolectamos 41K fotogramas de 234 objetos en seis clases de partes, y entrenamos un modelo GPS generalizable con una única imagen RGB-D del objeto como entrada. Para la manipulación de objetos, implementamos una política heurística basada en la predicción de GPS. Sin ningún ajuste fino dentro del dominio, nuestro método alcanza una tasa de éxito del 73%, cubriendo 270 estados iniciales para 9 objetos. Nuestro código, datos y herramienta reutilizable están disponibles en https://enlighten0707.github.io/gps.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.