ChatPaper.aiChatPaper

SAM 3D: Rendere 3D qualsiasi elemento nelle immagini

SAM 3D: 3Dfy Anything in Images

November 20, 2025
Autori: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI

Abstract

Presentiamo SAM 3D, un modello generativo per la ricostruzione 3D di oggetti basata su riferimenti visivi, che predice geometria, texture e disposizione a partire da una singola immagine. SAM 3D eccelle con immagini naturali, dove l'occlusione e il disordine della scena sono comuni e gli indizi di riconoscimento visivo contestuale giocano un ruolo più importante. Raggiungiamo questo risultato con una pipeline che coinvolge umani e modelli per l'annotazione della forma, della texture e della posa degli oggetti, fornendo dati di ricostruzione 3D visivamente ancorati a una scala senza precedenti. Apprendiamo da questi dati in un moderno framework di addestramento multi-stadio che combina pre-addestramento sintetico con allineamento al mondo reale, superando la "barriera dei dati" 3D. Otteniamo miglioramenti significativi rispetto ai lavori recenti, con un rapporto di preferenza umana di almeno 5:1 nei test su oggetti e scene del mondo reale. Rilasceremo il nostro codice e i pesi del modello, una demo online e un nuovo benchmark impegnativo per la ricostruzione 3D di oggetti in condizioni non controllate.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.
PDF1013December 1, 2025