ChatPaper.aiChatPaper

Fast-SAM3D : 3D-isez n'importe quoi dans les images, mais plus rapidement

Fast-SAM3D: 3Dfy Anything in Images but Faster

February 5, 2026
papers.authors: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

papers.abstract

SAM3D permet une reconstruction 3D évolutive en monde ouvert à partir de scènes complexes, mais son déploiement est entravé par une latence d'inférence prohibitrice. Dans ce travail, nous menons la première investigation systématique de sa dynamique d'inférence, révélant que les stratégies d'accélération génériques sont fragiles dans ce contexte. Nous démontrons que ces échecs proviennent de la négligence de l'hétérogénéité multi-niveaux inhérente au pipeline : la distinctivité cinématique entre la forme et la structure, la sparsité intrinsèque du raffinement de texture, et la variance spectrale entre les géométries. Pour résoudre ce problème, nous présentons Fast-SAM3D, un framework sans apprentissage qui aligne dynamiquement le calcul avec la complexité instantanée de la génération. Notre approche intègre trois mécanismes sensibles à l'hétérogénéité : (1) une Mise en Cache d'Étapes Sensible aux Modalités pour découpler l'évolution structurelle des mises à jour sensibles de la structure ; (2) une Sculpture de Tokens Spatio-temporelle Conjointe pour concentrer le raffinement sur les régions à haute entropie ; et (3) une Agrégation de Tokens Sensible au Spectre pour adapter la résolution du décodage. Des expériences approfondies démontrent que Fast-SAM3D offre une accélération de bout en bout allant jusqu'à 2,67 fois avec une perte de fidélité négligeable, établissant une nouvelle frontière de Pareto pour une génération 3D monoculaire efficace. Notre code est publié sur https://github.com/wlfeng0509/Fast-SAM3D.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
PDF13February 7, 2026