ChatPaper.aiChatPaper

DMV3D: Denoising Multi-View Diffusion utilizzando un Modello di Ricostruzione 3D su Larga Scala

DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

November 15, 2023
Autori: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI

Abstract

Proponiamo DMV3D, un innovativo approccio per la generazione 3D che utilizza un modello di ricostruzione 3D su larga scala basato su transformer per denoisare la diffusione multi-vista. Il nostro modello di ricostruzione incorpora una rappresentazione NeRF a triplano ed è in grado di denoisare immagini multi-vista rumorose attraverso la ricostruzione e il rendering NeRF, raggiungendo una generazione 3D in un'unica fase in circa 30 secondi su una singola GPU A100. Addestriamo DMV3D su dataset di immagini multi-vista su larga scala di oggetti altamente diversificati, utilizzando solo perdite di ricostruzione delle immagini, senza accesso ad asset 3D. Dimostriamo risultati all'avanguardia per il problema della ricostruzione da singola immagine, dove la modellazione probabilistica delle parti non visibili degli oggetti è necessaria per generare ricostruzioni diversificate con texture nitide. Mostriamo inoltre risultati di alta qualità nella generazione da testo a 3D, superando i precedenti modelli di diffusione 3D. Il sito web del nostro progetto è disponibile all'indirizzo: https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in sim30s on single A100 GPU. We train DMV3D on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .
PDF221December 15, 2024