DMV3D: Denoising Multi-View Diffusion unter Verwendung eines 3D Large Reconstruction Modells
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model
November 15, 2023
Autoren: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI
Zusammenfassung
Wir stellen DMV3D vor, einen neuartigen Ansatz zur 3D-Generierung, der ein transformer-basiertes 3D-Rekonstruktionsmodell verwendet, um Multi-View-Diffusion zu entrauschen. Unser Rekonstruktionsmodell integriert eine Triplane-NeRF-Darstellung und kann verrauschte Multi-View-Bilder durch NeRF-Rekonstruktion und -Rendering entrauschen, wodurch eine einstufige 3D-Generierung in ca. 30 Sekunden auf einer einzelnen A100-GPU erreicht wird. Wir trainieren DMV3D auf groß angelegten Multi-View-Bilddatensätzen von hochgradig diversen Objekten, wobei wir ausschließlich Bildrekonstruktionsverluste verwenden, ohne auf 3D-Assets zuzugreifen. Wir demonstrieren state-of-the-art Ergebnisse für das Problem der Einzelbildrekonstruktion, bei dem eine probabilistische Modellierung unsichtbarer Objektteile erforderlich ist, um diverse Rekonstruktionen mit scharfen Texturen zu erzeugen. Wir zeigen auch hochwertige Text-zu-3D-Generierungsergebnisse, die bisherige 3D-Diffusionsmodelle übertreffen. Unsere Projektwebsite befindet sich unter: https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a
transformer-based 3D large reconstruction model to denoise multi-view
diffusion. Our reconstruction model incorporates a triplane NeRF representation
and can denoise noisy multi-view images via NeRF reconstruction and rendering,
achieving single-stage 3D generation in sim30s on single A100 GPU. We train
DMV3D on large-scale multi-view image datasets of highly diverse
objects using only image reconstruction losses, without accessing 3D assets. We
demonstrate state-of-the-art results for the single-image reconstruction
problem where probabilistic modeling of unseen object parts is required for
generating diverse reconstructions with sharp textures. We also show
high-quality text-to-3D generation results outperforming previous 3D diffusion
models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .