ChatPaper.aiChatPaper

Fast-SAM3D: Convertir cualquier elemento de imágenes en 3D, pero más rápido

Fast-SAM3D: 3Dfy Anything in Images but Faster

February 5, 2026
Autores: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Resumen

SAM3D permite la reconstrucción 3D escalable de entornos abiertos a partir de escenas complejas, aunque su despliegue se ve obstaculizado por una latencia de inferencia prohibitiva. En este trabajo, realizamos la primera investigación sistemática de su dinámica de inferencia, revelando que las estrategias genéricas de aceleración son frágiles en este contexto. Demostramos que estos fallos se originan por desatender la heterogeneidad multinivel inherente a la canalización: la distintividad cinemática entre forma y disposición estructural, la espasticidad intrínseca del refinamiento textural y la varianza espectral entre geometrías. Para abordarlo, presentamos Fast-SAM3D, un marco de trabajo libre de entrenamiento que alinea dinámicamente el cómputo con la complejidad de generación instantánea. Nuestro enfoque integra tres mecanismos conscientes de la heterogeneidad: (1) Caché de Pasos Consciente de la Modalidad para desacoplar la evolución estructural de las actualizaciones sensibles de la disposición; (2) Tallado de Tokens Espaciotemporales Conjunto para concentrar el refinamiento en regiones de alta entropía; y (3) Agregación de Tokens Consciente del Espectro para adaptar la resolución de decodificación. Experimentos exhaustivos demuestran que Fast-SAM3D proporciona una aceleración de extremo a extremo de hasta 2.67 veces con una pérdida de fidelidad insignificante, estableciendo una nueva frontera de Pareto para la generación 3D eficiente a partir de vista única. Nuestro código se ha publicado en https://github.com/wlfeng0509/Fast-SAM3D.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
PDF13February 7, 2026