SAM 3D: 3D-фикация любого объекта на изображениях
SAM 3D: 3Dfy Anything in Images
November 20, 2025
Авторы: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI
Аннотация
Мы представляем SAM 3D — генеративную модель для визуально обоснованной 3D-реконструкции объектов, которая предсказывает геометрию, текстуру и компоновку по одному изображению. SAM 3D особенно эффективна при работе с естественными изображениями, где обычны окклюзия и захламленность сцены, а визуальные контекстные подсказки играют более важную роль. Мы достигаем этого с помощью конвейера аннотирования с участием человека и модели, который обеспечивает разметку формы, текстуры и позы объектов, создавая визуально обоснованные данные для 3D-реконструкции в беспрецедентном масштабе. Обучение на этих данных происходит в современной многоэтапной системе, сочетающей синтетическое предварительное обучение с адаптацией к реальным условиям, что позволяет преодолеть «барьер данных» в 3D. Наш метод демонстрирует значительное преимущество над последними разработками, показывая как минимум 5:1 соотношение предпочтений в тестах с участием людей для реальных объектов и сцен. Мы опубликуем наш код и веса модели, онлайн-демонстрацию, а также новый сложный бенчмарк для 3D-реконструкции объектов в неконтролируемых условиях.
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.