ChatPaper.aiChatPaper

SAM 3D: 画像内のあらゆるものを3D化する

SAM 3D: 3Dfy Anything in Images

November 20, 2025
著者: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
cs.AI

要旨

本論文では、単一画像から幾何形状、テクスチャ、レイアウトを予測する視覚接地型3Dオブジェクト再構成のための生成モデル「SAM 3D」を提案します。SAM 3Dは、オクルージョンやシーンクラッターが一般的であり、文脈からの視覚的認識手がかりが重要となる自然画像において優れた性能を発揮します。この実現のために、人間とモデルをループ内に組み込んだパイプラインを構築し、オブジェクト形状、テクスチャ、ポーズの注釈を付与することで、前例のない規模の視覚接地型3D再構成データを提供します。合成データによる事前学習と実世界データとの整合性調整を組み合わせた現代的なマルチステージ訓練フレームワークにより、3Dの「データ障壁」を打破し、このデータから学習します。実世界のオブジェクトとシーンにおける人間の嗜好性テストでは、最近の研究と比較して5:1以上の勝率を達成し、顕著な改善を実現しました。コードとモデル重み、オンラインデモ、さらに実環境における3Dオブジェクト再構成のための新たな挑戦的なベンチマークを公開予定です。
English
We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.
PDF1013December 1, 2025