SAM 3D: 3D-ificeer alles op afbeeldingen
SAM 3D: 3Dfy Anything in Images
November 20, 2025
Auteurs: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI
Samenvatting
Wij presenteren SAM 3D, een generatief model voor visueel onderbouwde 3D-objectreconstructie, dat geometrie, textuur en lay-out voorspelt vanuit een enkele afbeelding. SAM 3D presteert uitstekend op natuurlijke afbeeldingen, waar occlusie en rommeligheid in scènes veelvoorkomend zijn en visuele herkenningsaanwijzingen uit de context een grotere rol spelen. Dit bereiken we met een pijplijn waarbij mens en model in de loop zijn betrokken voor het annoteren van objectvorm, textuur en pose, waardoor we op ongekende schaal visueel onderbouwde 3D-reconstructiedata kunnen aanbieden. We leren van deze data binnen een modern, meerfasig trainingsraamwerk dat synthetische voortraining combineert met aanpassing aan de echte wereld, waardoor de 3D-"databarrière" wordt doorbroken. We behalen aanzienlijke verbeteringen ten opzichte van recent werk, met een winstratio van ten minste 5:1 in voorkeurstests door mensen op objecten en scènes uit de echte wereld. We zullen onze code en modelgewichten, een online demo en een nieuwe uitdagende benchmark voor 3D-objectreconstructie in de vrije wereld vrijgeven.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.