DMV3D : Dénuage Multi-Vues par Diffusion utilisant un Modèle de Reconstruction 3D à Grande Échelle
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model
November 15, 2023
Auteurs: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI
Résumé
Nous proposons DMV3D, une nouvelle approche de génération 3D qui utilise un modèle de reconstruction 3D à grande échelle basé sur des transformateurs pour débruiter une diffusion multi-vues. Notre modèle de reconstruction intègre une représentation NeRF en triplan et peut débruiter des images multi-vues bruitées via la reconstruction et le rendu NeRF, permettant une génération 3D en une seule étape en environ 30 secondes sur une seule GPU A100. Nous entraînons DMV3D sur des ensembles de données d'images multi-vues à grande échelle d'objets très diversifiés en utilisant uniquement des pertes de reconstruction d'images, sans accéder à des actifs 3D. Nous démontrons des résultats de pointe pour le problème de reconstruction à partir d'une seule image, où une modélisation probabiliste des parties invisibles des objets est nécessaire pour générer des reconstructions diversifiées avec des textures nettes. Nous montrons également des résultats de haute qualité pour la génération de texte-à-3D, surpassant les modèles de diffusion 3D précédents. Notre site web de projet est disponible à l'adresse : https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a
transformer-based 3D large reconstruction model to denoise multi-view
diffusion. Our reconstruction model incorporates a triplane NeRF representation
and can denoise noisy multi-view images via NeRF reconstruction and rendering,
achieving single-stage 3D generation in sim30s on single A100 GPU. We train
DMV3D on large-scale multi-view image datasets of highly diverse
objects using only image reconstruction losses, without accessing 3D assets. We
demonstrate state-of-the-art results for the single-image reconstruction
problem where probabilistic modeling of unseen object parts is required for
generating diverse reconstructions with sharp textures. We also show
high-quality text-to-3D generation results outperforming previous 3D diffusion
models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .