ChatPaper.aiChatPaper

Fast-SAM3D: Alles in Beelden 3D-maken, maar Sneller

Fast-SAM3D: 3Dfy Anything in Images but Faster

February 5, 2026
Auteurs: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Samenvatting

SAM3D maakt schaalbare, open-wereld 3D-reconstructie van complexe scènes mogelijk, maar de inzet ervan wordt belemmerd door een buitensporige inferentielatentie. In dit werk voeren we het eerste systematische onderzoek uit naar de inferentiedynamiek en tonen we aan dat generieke versnellingsstrategieën in deze context broos zijn. We demonstreren dat deze mislukkingen voortkomen uit het negeren van de inherente multi-level heterogeniteit van de pijplijn: de kinematische distinctiviteit tussen vorm en lay-out, de intrinsieke spaarzaamheid van textuurverfijning, en de spectrale variantie tussen geometrieën. Om dit aan te pakken, presenteren we Fast-SAM3D, een trainingsvrij raamwerk dat de rekenkracht dynamisch afstemt op de instantane generatiecomplexiteit. Onze aanpak integreert drie heterogeniteitsbewuste mechanismen: (1) Modaliteitsbewuste Stap-Caching om structurele evolutie te ontkoppelen van gevoelige lay-outupdates; (2) Gezamenlijke Spatiotemporele Token-Carving om verfijning te concentreren op regio's met hoge entropie; en (3) Spectraalbewuste Token-Aggregatie om de decoderingsresolutie aan te passen. Uitgebreide experimenten tonen aan dat Fast-SAM3D een end-to-end versnelling tot 2,67x bereikt met verwaarloosbaar kwaliteitsverlies, waarmee een nieuwe Pareto-frontier wordt gevestigd voor efficiënte 3D-generatie vanuit één beeld. Onze code is vrijgegeven op https://github.com/wlfeng0509/Fast-SAM3D.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
PDF13February 7, 2026