SAM 3D: Transforme Qualquer Coisa em 3D nas Imagens
SAM 3D: 3Dfy Anything in Images
November 20, 2025
Autores: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI
Resumo
Apresentamos o SAM 3D, um modelo generativo para reconstrução 3D de objetos com base visual, que prevê geometria, textura e disposição a partir de uma única imagem. O SAM 3D destaca-se em imagens naturais, onde a oclusão e a desorganização da cena são comuns e os indícios de reconhecimento visual a partir do contexto desempenham um papel mais importante. Conseguimos isso com um *pipeline* que inclui humanos e modelos no processo para anotar a forma, a textura e a pose do objeto, fornecendo dados de reconstrução 3D com base visual em uma escala sem precedentes. Aprendemos a partir desses dados em uma estrutura de treinamento moderna e em vários estágios que combina o pré-treinamento sintético com o alinhamento do mundo real, superando a "barreira de dados" em 3D. Obtivemos ganhos significativos em relação a trabalhos recentes, com uma taxa de preferência humana de pelo menos 5:1 em testes com objetos e cenas do mundo real. Disponibilizaremos nosso código e pesos do modelo, uma demonstração online e um novo *benchmark* desafiador para reconstrução 3D de objetos em ambientes não controlados.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.