ChatPaper.aiChatPaper

SAM 3D: 3D-fizieren Sie alles auf Bildern

SAM 3D: 3Dfy Anything in Images

November 20, 2025
papers.authors: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI

papers.abstract

Wir stellen SAM 3D vor, ein generatives Modell für visuell fundierte 3D-Objektrekonstruktion, das Geometrie, Textur und Anordnung aus einem einzelnen Bild vorhersagt. SAM 3D überzeugt insbesondere bei natürlichen Bildern, in denen Verdeckungen und Szenenunordnung häufig auftreten und visuelle Erkennungshinweise aus dem Kontext eine größere Rolle spielen. Wir erreichen dies mit einer Pipeline, die Mensch und Modell einbezieht, um Objektform, Textur und Pose zu annotieren und so visuell fundierte 3D-Rekonstruktionsdaten in bisher unerreichtem Umfang bereitzustellen. Wir lernen aus diesen Daten in einem modernen, mehrstufigen Trainingsframework, das synthetisches Vortraining mit Realwelt-Abgleich kombiniert und damit die 3D-"Datenschranke" durchbricht. Wir erzielen signifikante Verbesserungen gegenüber aktuellen Arbeiten, mit mindestens einer 5:1-Gewinnrate in menschlichen Präferenztests für Objekte und Szenen aus der realen Welt. Wir werden unseren Code und unsere Modellgewichte, eine Online-Demo sowie einen neuen anspruchsvollen Benchmark für 3D-Objektrekonstruktion in unkontrollierten Umgebungen veröffentlichen.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.
PDF1013December 1, 2025