ChatPaper.aiChatPaper

Fast-SAM3D: 画像内のあらゆるものを高速に3D化

Fast-SAM3D: 3Dfy Anything in Images but Faster

February 5, 2026
著者: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

要旨

SAM3Dは複雑なシーンからのスケーラブルなオープンワールド3D再構成を実現するが、その実用化は過度な推論遅延によって妨げられている。本研究では、その推論ダイナミクスに関する初の体系的な調査を行い、一般的な高速化手法がこの文脈では脆弱であることを明らかにする。これらの失敗は、パイプラインに内在するマルチレベルな不均質性、すなわち形状とレイアウト間の運動学的差異、テクスチャ精細化の本質的なスパース性、および幾何学構造に跨るスペクトル的なばらつきを無視することに起因することを示す。この問題に対処するため、我々は計算量を瞬間的な生成複雑度に動的に適合させる訓練不要のフレームワークFast-SAM3Dを提案する。本手法は三つの不均質性を考慮したメカニズムを統合する:(1) 構造的進化と敏感なレイアウト更新を分離するモダリティ対応ステップキャッシング、(2) 高エントロピー領域に精細化を集中させる時空間トークン統合切削、(3) 復号解像度を適応的に調整するスペクトル対応トークン集約。大規模な実験により、Fast-SAM3Dが検知可能な忠実度低下をほぼ伴わずに最大2.67倍のエンドツーエンド高速化を実現し、効率的な単一視点3D生成の新たなパレートフロンティアを確立することを実証する。コードはhttps://github.com/wlfeng0509/Fast-SAM3Dで公開されている。
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
PDF13February 7, 2026