Fast-SAM3D: Oggetti 3D da Immagini, ma Più Veloce

Abstract

SAM3D consente una ricostruzione 3D scalabile in ambienti open-world a partire da scene complesse, ma il suo utilizzo è ostacolato da una latenza di inferenza proibitiva. In questo lavoro, conduciamo la prima indagine sistematica sulla sua dinamica inferenziale, rivelando come le strategie generiche di accelerazione siano fragili in questo contesto. Dimostriamo che questi fallimenti derivano dalla trascuratezza dell'eterogeneità multilivello intrinseca della pipeline: la distintività cinematica tra forma e layout, la sparsità intrinseca del raffinamento della texture e la varianza spettrale tra le geometrie. Per affrontare questo problema, presentiamo Fast-SAM3D, un framework senza fase di addestramento che allinea dinamicamente il calcolo con la complessità di generazione istantanea. Il nostro approccio integra tre meccanismi consapevoli dell'eterogeneità: (1) Modality-Aware Step Caching per disaccoppiare l'evoluzione strutturale dagli aggiornamenti sensibili del layout; (2) Joint Spatiotemporal Token Carving per concentrare il raffinamento sulle regioni ad alta entropia; e (3) Spectral-Aware Token Aggregation per adattare la risoluzione di decodifica. Esperimenti estensivi dimostrano che Fast-SAM3D fornisce un miglioramento di velocità end-to-end fino a 2,67 volte con una perdita di fedeltà trascurabile, stabilendo una nuova frontiera di Pareto per la generazione 3D efficiente da vista singola. Il nostro codice è rilasciato su https://github.com/wlfeng0509/Fast-SAM3D.

English

SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.

Fast-SAM3D: Oggetti 3D da Immagini, ma Più Veloce

Fast-SAM3D: 3Dfy Anything in Images but Faster

Abstract

Support