ChatPaper.aiChatPaper

Revisitando a Percepção de Partes Articuladas na Manipulação Robótica

Revisiting Articulated Parts Perception in Robot Manipulation

June 6, 2026
Autores: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI

Resumo

Estamos rodeados por diversos objetos com partes móveis e articuladas, como caixas, alças e portas. Uma percepção precisa e generalizável de partes articuladas é essencial para aprimorar as capacidades de manipulação robótica. Com base nessa necessidade, esforços recentes na percepção de partes articuladas seguiram duas direções principais: uma linha de trabalho utiliza representação baseada em pose, que exige alto custo manual; em paralelo, métodos baseados em affordances extraem o movimento futuro de objetos a partir do rastreamento de pontos, sem esforços manuais adicionais, mas sofrem com dados de baixa qualidade. Neste artigo, propomos uma nova representação de partes articuladas, a Estrutura Geométrica Primária (GPS), uma abstração da estrutura geométrica das partes que equilibra escalabilidade e qualidade. Para uma coleta de dados eficiente e escalável, o GPS é integrado a um dispositivo portátil de Realidade Virtual (RV) e requer apenas um minuto para anotar uma sequência de objetos. Essa anotação humana direta oferece maior qualidade do que as affordances estimadas. Com esse sistema eficiente VR-GPS, coletamos 41 mil quadros de 234 objetos em seis classes de partes e treinamos um modelo GPS generalizável com uma única imagem RGB-D do objeto como entrada. Para a manipulação de objetos, empregamos uma política heurística baseada na predição do GPS. Sem qualquer ajuste fino no domínio, nosso método alcança uma taxa de sucesso de 73%, abrangendo 270 estados iniciais para 9 objetos. Nosso código, dados e ferramenta reutilizável estão disponíveis em https://enlighten0707.github.io/gps.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.