MonoArt: 단안 관절 3D 복원을 위한 점진적 구조 추론
MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction
March 19, 2026
저자: Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu
cs.AI
초록
단일 이미지로부터 관절형 3D 객체를 복원하려면 제한된 시각적 증거만으로 객체 기하학, 부품 구조 및 운동 매개변수를 함께 추론해야 합니다. 핵심 난제는 운동 단서와 객체 구조 간의 긴밀한 연관성에 있으며, 이로 인해 직접적인 관절 회귀 분석이 불안정해집니다. 기존 방법들은 다중 시점 감독, 검색 기반 조립 또는 보조 영상 생성 등을 통해 이 문제를 해결하지만, 확장성이나 효율성을 희생하는 경우가 많습니다. 본 논문에서는 점진적 구조 추론에 기반한 통합 프레임워크인 MonoArt를 제안합니다. MonoArt는 이미지 특징에서 관절을 직접 예측하기보다 단일 아키텍처 내에서 시각적 관측을 점진적으로 표준 기하학, 구조화된 부품 표현 및 운동 인식 임베딩으로 변환합니다. 이러한 구조화된 추론 과정을 통해 외부 운동 템플릿이나 다단계 파이프라인 없이도 안정적이고 해석 가능한 관절 추론이 가능합니다. PartNet-Mobility에 대한 광범위한 실험을 통해 OM이 복원 정확도와 추론 속도 모두에서 최첨단 성능을 달성함을 입증했습니다. 해당 프레임워크는 로봇 매니퓰레이션 및 관절형 장면 복원 작업으로도 일반화됩니다.
English
Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.