ChatPaper.aiChatPaper

SAM 3D : Donnez une dimension 3D à tout élément dans les images

SAM 3D: 3Dfy Anything in Images

November 20, 2025
papers.authors: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI

papers.abstract

Nous présentons SAM 3D, un modèle génératif pour la reconstruction 3D ancrée visuellement, qui prédit la géométrie, la texture et la disposition à partir d'une seule image. SAM 3D excelle sur les images naturelles, où l'occlusion et l'encombrement de la scène sont courants, et où les indices de reconnaissance visuelle issus du contexte jouent un rôle plus important. Nous y parvenons grâce à un pipeline intégrant l'humain et le modèle pour annoter la forme, la texture et la pose des objets, fournissant des données de reconstruction 3D visuellement ancrées à une échelle sans précédent. Nous apprenons de ces données dans un cadre d'entraînement moderne et multi-étapes qui combine un pré-entraînement synthétique avec un alignement sur le monde réel, brisant ainsi la « barrière des données 3D ». Nous obtenons des gains significatifs par rapport aux travaux récents, avec un taux de préférence humaine d'au moins 5:1 sur des objets et scènes du monde réel. Nous publierons notre code et nos poids de modèle, une démonstration en ligne et un nouveau benchmark exigeant pour la reconstruction 3D d'objets en conditions réelles.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.
PDF1013December 1, 2025