Fast-SAM3D: Alles in Bildern in 3D verwandeln, nur schneller
Fast-SAM3D: 3Dfy Anything in Images but Faster
February 5, 2026
papers.authors: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
papers.abstract
SAM3D ermöglicht skalierbare 3D-Rekonstruktion aus komplexen Szenen in offenen Welten, doch sein Einsatz wird durch prohibitive Inferenzlatenz behindert. In dieser Arbeit führen wir die erste systematische Untersuchung seiner Inferenzdynamik durch und zeigen, dass generische Beschleunigungsstrategien in diesem Kontext anfällig sind. Wir belegen, dass diese Fehlschläge auf die Vernachlässigung der inhärenten Mehr-Ebenen-Heterogenität der Pipeline zurückzuführen sind: die kinematische Unterscheidbarkeit zwischen Form und Layout, die intrinsische Sparsität der Texturverfeinerung und die spektrale Varianz zwischen Geometrien. Um dies zu adressieren, präsentieren wir Fast-SAM3D, ein trainierungsfreies Framework, das die Berechnung dynamisch mit der instantanen Generierungskomplexität in Einklang bringt. Unser Ansatz integriert drei heterogenitätsbewusste Mechanismen: (1) modalitätsbewusstes Schritt-Caching zur Entkopplung der strukturellen Evolution von sensiblen Layout-Updates; (2) gemeinsame raumzeitliche Token-Carving zur Konzentration der Verfeinerung auf Regionen hoher Entropie; und (3) spektralbewusste Token-Aggregation zur adaptiven Anpassung der Dekodierungsauflösung. Umfangreiche Experimente belegen, dass Fast-SAM3D eine bis zu 2,67-fache Ende-zu-Ende-Beschleunigung bei vernachlässigbarem Qualitätsverlust erreicht und damit eine neue Pareto-Front für effiziente Einzelbild-3D-Generierung etabliert. Unser Code ist unter https://github.com/wlfeng0509/Fast-SAM3D veröffentlicht.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.