ChatPaper.aiChatPaper

DMV3D: Denoización de Difusión Multi-Vista utilizando un Modelo de Reconstrucción 3D a Gran Escala

DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

November 15, 2023
Autores: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI

Resumen

Proponemos DMV3D, un novedoso enfoque de generación 3D que utiliza un modelo de reconstrucción 3D a gran escala basado en transformadores para eliminar el ruido en la difusión multi-vista. Nuestro modelo de reconstrucción incorpora una representación NeRF en triplano y puede eliminar el ruido de imágenes multi-vista mediante la reconstrucción y renderización NeRF, logrando una generación 3D en una sola etapa en aproximadamente 30 segundos en una única GPU A100. Entrenamos DMV3D en conjuntos de datos de imágenes multi-vista a gran escala de objetos altamente diversos utilizando únicamente pérdidas de reconstrucción de imágenes, sin acceso a activos 3D. Demostramos resultados de vanguardia en el problema de reconstrucción a partir de una sola imagen, donde se requiere un modelado probabilístico de partes no vistas del objeto para generar reconstrucciones diversas con texturas nítidas. También mostramos resultados de alta calidad en la generación de texto a 3D, superando a modelos de difusión 3D anteriores. Nuestro sitio web del proyecto se encuentra en: https://justimyhxu.github.io/projects/dmv3d/.
English
We propose DMV3D, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in sim30s on single A100 GPU. We train DMV3D on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .
PDF221December 15, 2024