DMV3D: Denoising Multi-View Diffusion utilizando Modelo de Grande Reconstrução 3D
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model
November 15, 2023
Autores: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI
Resumo
Propomos o DMV3D, uma nova abordagem de geração 3D que utiliza um modelo de reconstrução 3D em larga escala baseado em transformadores para remover ruído de difusão multi-visão. Nosso modelo de reconstrução incorpora uma representação NeRF em triplano e pode remover ruído de imagens multi-visão ruidosas por meio de reconstrução e renderização NeRF, alcançando geração 3D em estágio único em aproximadamente 30 segundos em uma única GPU A100. Treinamos o DMV3D em grandes conjuntos de dados de imagens multi-visão de objetos altamente diversos, utilizando apenas perdas de reconstrução de imagem, sem acesso a ativos 3D. Demonstramos resultados de ponta para o problema de reconstrução de imagem única, onde a modelagem probabilística de partes não vistas do objeto é necessária para gerar reconstruções diversas com texturas nítidas. Também mostramos resultados de alta qualidade na geração de texto para 3D, superando modelos anteriores de difusão 3D. O site do nosso projeto está em: https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a
transformer-based 3D large reconstruction model to denoise multi-view
diffusion. Our reconstruction model incorporates a triplane NeRF representation
and can denoise noisy multi-view images via NeRF reconstruction and rendering,
achieving single-stage 3D generation in sim30s on single A100 GPU. We train
DMV3D on large-scale multi-view image datasets of highly diverse
objects using only image reconstruction losses, without accessing 3D assets. We
demonstrate state-of-the-art results for the single-image reconstruction
problem where probabilistic modeling of unseen object parts is required for
generating diverse reconstructions with sharp textures. We also show
high-quality text-to-3D generation results outperforming previous 3D diffusion
models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .