Fast-SAM3D: 이미지 내 모든 것을 3D로 변환하되 더 빠르게
Fast-SAM3D: 3Dfy Anything in Images but Faster
February 5, 2026
저자: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
초록
SAM3D는 복잡한 장면에서 확장 가능한 오픈 월드 3D 재구성을 가능하게 하지만, 과도한 추론 지연 시간으로 인해 실제 배포가 어렵습니다. 본 연구에서는 SAM3D의 추론 동역학에 대한 최초의 체계적인 분석을 수행하며, 기존 일반적인 가속 전략이 이 맥락에서는 취약함을 밝힙니다. 우리는 이러한 실패가 파이프라인 내재적 다중 수준 이질성, 즉 형상과 레이아웃 간의 운동학적 차이, 텍스처 정제의 본질적 희소성, 기하 구조 간의 스펙트럼 변동성을 간과한 데 기인함을 입증합니다. 이를 해결하기 위해 우리는 생성 과정의 즉각적 복잡도에 계산을 동적으로 정렬하는 학습 불필요 프레임워크인 Fast-SAM3D를 제안합니다. 우리의 접근법은 세 가지 이질성 인식 메커니즘을 통합합니다: (1) 구조적 진화와 민감한 레이아웃 업데이트를 분리하는 양상 인식 스텝 캐싱; (2) 높은 엔트로피 영역에 정제를 집중시키는 결합 시공간 토큰 캐빙; (3) 디코딩 해상도를 적응적으로 조절하는 스펙트럼 인식 토큰 집계. 폭넓은 실험을 통해 Fast-SAM3D가 미미한 정확도 손실만으로 최대 2.67배의 종단 간 속도 향상을 제공하며, 효율적인 단일 뷰 3D 생성을 위한 새로운 파레토 최적선을 수립함을 입증합니다. 코드는 https://github.com/wlfeng0509/Fast-SAM3D에서 공개됩니다.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.