ChatPaper.aiChatPaper

Fast-SAM3D: Transforme Qualquer Elemento de Imagens em 3D de Forma Mais Rápida

Fast-SAM3D: 3Dfy Anything in Images but Faster

February 5, 2026
Autores: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Resumo

O SAM3D permite a reconstrução 3D escalável de mundo aberto a partir de cenas complexas, mas sua implantação é dificultada por uma latência de inferência proibitiva. Neste trabalho, realizamos a primeira investigação sistemática sobre sua dinâmica de inferência, revelando que as estratégias genéricas de aceleração são frágeis neste contexto. Demonstramos que essas falhas decorrem da negligência da heterogeneidade multinível inerente ao pipeline: a distinção cinemática entre forma e layout, a esparsidade intrínseca do refinamento de textura e a variância espectral entre geometrias. Para resolver isso, apresentamos o Fast-SAM3D, uma estrutura *training-free* que alinha dinamicamente a computação com a complexidade de geração instantânea. Nossa abordagem integra três mecanismos conscientes da heterogeneidade: (1) *Cache de Passos Consciente da Modalidade* para desacoplar a evolução estrutural de atualizações sensíveis de layout; (2) *Esculpimento Conjunto de *Tokens* Espaço-Temporais* para concentrar o refinamento em regiões de alta entropia; e (3) *Agregação de *Tokens* Consciente do Espectro* para adaptar a resolução de decodificação. Experimentos extensivos demonstram que o Fast-SAM3D proporciona uma aceleração de até 2,67 vezes em *end-to-end* com perda de fidelidade insignificante, estabelecendo uma nova fronteira de Pareto para a geração 3D eficiente a partir de vista única. Nosso código está disponível em https://github.com/wlfeng0509/Fast-SAM3D.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
PDF13February 7, 2026