SAM 3D: 이미지 속 모든 것을 3D로 구현하다
SAM 3D: 3Dfy Anything in Images
November 20, 2025
저자: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI
초록
본 논문에서는 단일 이미지로부터 형상, 텍스처, 레이아웃을 예측하는 시각 기반 3D 객체 재구성 생성 모델인 SAM 3D를 제안합니다. SAM 3D는 폐색과 장면 복잡성이 흔히 나타나며 맥락에 의한 시각적 인지 단서가 중요한 역할을 하는 자연 이미지에서 특히 뛰어난 성능을 보입니다. 이를 위해 객체 형상, 텍스처, 자세를 주석 처리하는 인간 및 모델 참여형 파이프라인을 구축하여 전례 없는 규모의 시각 기반 3D 재구성 데이터를 생성했습니다. 합성 데이터 사전 학습과 현실 세계 정렬을 결합한 현대적 다단계 학습 프레임워크로 이 데이터를 학습함으로써 3D "데이터 장벽"을 극복했습니다. 실제 객체와 장면에 대한 인간 선호도 평가에서 최소 5:1의 승률로 최근 연구 대비 획기적인 성능 향상을 달성했습니다. 코드와 모델 가중치, 온라인 데모, 그리고 실제 환경 3D 객체 재구성을 위한 새로운 도전적 벤치마크를 공개할 예정입니다.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.