SAM 3D: Transforme Qualquer Coisa em 3D nas Imagens

Resumo

Apresentamos o SAM 3D, um modelo generativo para reconstrução 3D de objetos com base visual, que prevê geometria, textura e disposição a partir de uma única imagem. O SAM 3D destaca-se em imagens naturais, onde a oclusão e a desorganização da cena são comuns e os indícios de reconhecimento visual a partir do contexto desempenham um papel mais importante. Conseguimos isso com um *pipeline* que inclui humanos e modelos no processo para anotar a forma, a textura e a pose do objeto, fornecendo dados de reconstrução 3D com base visual em uma escala sem precedentes. Aprendemos a partir desses dados em uma estrutura de treinamento moderna e em vários estágios que combina o pré-treinamento sintético com o alinhamento do mundo real, superando a "barreira de dados" em 3D. Obtivemos ganhos significativos em relação a trabalhos recentes, com uma taxa de preferência humana de pelo menos 5:1 em testes com objetos e cenas do mundo real. Disponibilizaremos nosso código e pesos do modelo, uma demonstração online e um novo *benchmark* desafiador para reconstrução 3D de objetos em ambientes não controlados.

English

We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.

SAM 3D: Transforme Qualquer Coisa em 3D nas Imagens

SAM 3D: 3Dfy Anything in Images

Resumo

Support