SAM 3D: Convertir cualquier elemento de imágenes en 3D
SAM 3D: 3Dfy Anything in Images
November 20, 2025
Autores: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI
Resumen
Presentamos SAM 3D, un modelo generativo para la reconstrucción 3D de objetos con base visual, que predige la geometría, la textura y la disposición a partir de una sola imagen. SAM 3D destaca en imágenes naturales, donde la oclusión y el desorden de la escena son comunes y las claves de reconocimiento visual a partir del contexto juegan un papel más importante. Logramos esto con una pipeline que incorpora retroalimentación humana y de modelos para anotar la forma, textura y pose de los objetos, proporcionando datos de reconstrucción 3D con base visual a una escala sin precedentes. Aprendemos de estos datos en un marco de entrenamiento moderno y multi-etapa que combina el preentrenamiento sintético con la alineación en el mundo real, superando la "barrera de datos" en 3D. Obtenemos mejoras significativas respecto a trabajos recientes, con una proporción de preferencia de al menos 5:1 en pruebas de evaluación humana sobre objetos y escenas del mundo real. Publicaremos nuestro código y los pesos del modelo, una demostración en línea y un nuevo benchmark desafiante para la reconstrucción 3D de objetos en entornos no controlados.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.