로봇 조작에서의 관절 부품 인식 재조명
Revisiting Articulated Parts Perception in Robot Manipulation
June 6, 2026
저자: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI
초록
우리는 상자, 손잡이, 문 등과 같이 움직이고 관절로 연결된 다양한 부품을 가진 객체들에 둘러싸여 있다. 관절 부품에 대한 정확하고 일반화 가능한 인식은 로봇 조작 능력을 향상시키는 데 필수적이다. 이러한 필요성에 기반하여, 최근 관절 부품 인식 연구는 두 가지 주요 방향으로 진행되어 왔다: 한 계열은 높은 수작업 비용을 요구하는 자세 기반 표현을 사용하며, 이와 병행하여 어포던스 기반 방법은 추가적인 수작업 없이 점 추적(point tracking)을 통해 미래 객체 움직임을 추출하지만 낮은 품질의 데이터로 인해 어려움을 겪는다. 본 논문에서는 확장성과 품질의 균형을 맞추기 위한 부품 기하 구조의 추상화인 기하학적 기본 구조(Geometric Primary Structure, GPS)라는 새로운 관절 부품 표현을 제안한다. 효율적이고 확장 가능한 데이터 수집을 위해 GPS는 휴대용 가상현실(VR) 장치와 통합되며, 하나의 객체 시퀀스에 주석을 다는 데 1분밖에 소요되지 않는다. 이러한 직접적인 인간 주석은 추정된 어포던스보다 더 높은 품질을 제공한다. 이 효율적인 VR-GPS 시스템을 통해 우리는 여섯 개의 부품 클래스에 걸쳐 234개 객체에 대한 41K 프레임을 수집하고, 단일 RGB-D 객체 이미지를 입력으로 하는 일반화 가능한 GPS 모델을 학습한다. 객체 조작을 위해 GPS 예측에 기반한 휴리스틱 정책을 배치한다. 어떠한 도메인 내 미세 조정 없이도 우리의 방법은 9개 객체에 대한 270개의 초기 상태를 포함하여 73%의 성공률을 달성한다. 코드, 데이터 및 재사용 가능 도구는 https://enlighten0707.github.io/gps에서 확인할 수 있다.
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.