Fast-SAM3D: 3D-фикация любого объекта на изображениях, но быстрее
Fast-SAM3D: 3Dfy Anything in Images but Faster
February 5, 2026
Авторы: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Аннотация
Метод SAM3D обеспечивает масштабируемое 3D-реконструкцию открытого мира из сложных сцен, однако его практическое применение ограничивается чрезмерно высокой задержкой вывода. В данной работе мы проводим первое систематическое исследование динамики его вывода, показывая, что универсальные стратегии ускорения в данном контексте неэффективны. Мы демонстрируем, что эти неудачи вызваны игнорированием присущей конвейеру многоуровневой гетерогенности: кинематического различия между формой и компоновкой, внутренней разреженности уточнения текстур и спектральной вариативности геометрий. Для решения этой проблемы мы представляем Fast-SAM3D — не требующий дообучения фреймворк, который динамически согласует вычислительные затраты с мгновенной сложностью генерации. Наш подход интегрирует три механизма, учитывающих гетерогенность: (1) модально-зависимое кэширование шагов для разделения структурной эволюции и чувствительных обновлений компоновки; (2) совместное пространственно-временное выделение токенов для концентрации уточнения в областях с высокой энтропией; и (3) спектрально-зависимая агрегация токенов для адаптивного разрешения декодирования. Многочисленные эксперименты показывают, что Fast-SAM3D обеспечивает до 2.67-кратного сквозного ускорения с незначительной потерей точности, устанавливая новый парето-фронт для эффективной 3D-генерации по одному изображению. Наш код доступен по адресу https://github.com/wlfeng0509/Fast-SAM3D.
English
SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the first systematic investigation into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level heterogeneity: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present Fast-SAM3D, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) Modality-Aware Step Caching to decouple structural evolution from sensitive layout updates; (2) Joint Spatiotemporal Token Carving to concentrate refinement on high-entropy regions; and (3) Spectral-Aware Token Aggregation to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to 2.67times end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.