ChatPaper.aiChatPaper

DMV3D: Устранение шума в многовидовой диффузии с использованием 3D-модели крупномасштабной реконструкции

DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

November 15, 2023
Авторы: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI

Аннотация

Мы представляем DMV3D — новый подход к генерации 3D-моделей, использующий трансформерную модель крупномасштабной 3D-реконструкции для устранения шума в многовидовой диффузии. Наша модель реконструкции включает в себя представление NeRF в виде триплейна и способна устранять шум в зашумленных многовидовых изображениях через реконструкцию и рендеринг NeRF, достигая одноэтапной генерации 3D-моделей за ~30 секунд на одном GPU A100. Мы обучаем DMV3D на крупномасштабных наборах данных многовидовых изображений объектов с высокой степенью разнообразия, используя только потери на реконструкцию изображений, без доступа к 3D-активам. Мы демонстрируем передовые результаты в задаче реконструкции по одному изображению, где требуется вероятностное моделирование невидимых частей объекта для генерации разнообразных реконструкций с четкими текстурами. Также мы показываем высококачественные результаты генерации 3D-моделей по тексту, превосходящие предыдущие модели 3D-диффузии. Наш проект доступен по адресу: https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in sim30s on single A100 GPU. We train DMV3D on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .
PDF221December 15, 2024