ShapeR: 캐주얼 캡처에서 강건한 조건부 3D 형상 생성
ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
January 16, 2026
저자: Yawar Siddiqui, Duncan Frost, Samir Aroudj, Armen Avetisyan, Henry Howard-Jenkins, Daniel DeTone, Pierre Moulon, Qirui Wu, Zhengqin Li, Julian Straub, Richard Newcombe, Jakob Engel
cs.AI
초록
3D 형상 생성의 최근 발전은 인상적인 결과를 달성했지만, 기존 방법 대부분은 깨끗하고 가려짐 없이 잘 분할된 입력에 의존합니다. 이러한 조건은 실제 시나리오에서는 거의 충족되지 않습니다. 우리는 캐주얼하게 캡처된 시퀀스로부터 조건부 3D 객체 형상을 생성하는 새로운 접근법인 ShapeR을 제시합니다. 이미지 시퀀스가 주어지면, 기성 시각-관성 SLAM, 3D 감지 알고리즘 및 비전-언어 모델을 활용하여 각 객체에 대해 희소 SLAM 포인트, 포즈 추정 다중 뷰 이미지 및 기계 생성 캡션 세트를 추출합니다. 이러한 양식들을 효과적으로 조건으로 활용하도록 훈련된 정류 흐름 트랜스포머는 이어서 높은 정확도의 미터법 3D 형상을 생성합니다. 캐주얼 캡처 데이터의 어려움에 대한 견고성을 보장하기 위해, 우리는 온더플라이 구성 증강, 객체 및 장면 수준 데이터셋에 걸친 커리큘럼 훈련 방식, 배경 복잡성을 처리하기 위한 전략 등 다양한 기법을 채택합니다. 또한, 7개의 실제 장면에 걸쳐 178개의 실제 환경 객체와 기하학적 주석을 포함하는 새로운 평가 벤치마크를 도입합니다. 실험 결과, ShapeR은 이 까다로운 환경에서 기존 접근법을 크게 능가하며, 최첨단 기술 대비 Chamfer 거리에서 2.7배의 개선을 달성함을 보여줍니다.
English
Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.