MVDiffusion++: Un modelo de difusión multi-vista de alta resolución y densidad para la reconstrucción de objetos 3D a partir de una vista única o escasa
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
February 20, 2024
Autores: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI
Resumen
Este artículo presenta una arquitectura neuronal llamada MVDiffusion++ para la reconstrucción de objetos 3D, que sintetiza vistas densas y de alta resolución de un objeto a partir de una o pocas imágenes sin información de poses de cámara. MVDiffusion++ logra una flexibilidad y escalabilidad superiores con dos ideas sorprendentemente simples: 1) Una "arquitectura libre de poses" donde la autoatención estándar entre características latentes 2D aprende la consistencia 3D a través de un número arbitrario de vistas condicionales y de generación sin utilizar explícitamente información de poses de cámara; y 2) Una "estrategia de descarte de vistas" que elimina un número sustancial de vistas de salida durante el entrenamiento, lo que reduce la huella de memoria en tiempo de entrenamiento y permite la síntesis de vistas densas y de alta resolución en tiempo de prueba. Utilizamos Objaverse para el entrenamiento y Google Scanned Objects para la evaluación con métricas estándar de síntesis de vistas novedosas y reconstrucción 3D, donde MVDiffusion++ supera significativamente el estado del arte actual. También demostramos un ejemplo de aplicación de texto a 3D combinando MVDiffusion++ con un modelo generativo de texto a imagen.
English
This paper presents a neural architecture MVDiffusion++ for 3D object
reconstruction that synthesizes dense and high-resolution views of an object
given one or a few images without camera poses. MVDiffusion++ achieves superior
flexibility and scalability with two surprisingly simple ideas: 1) A
``pose-free architecture'' where standard self-attention among 2D latent
features learns 3D consistency across an arbitrary number of conditional and
generation views without explicitly using camera pose information; and 2) A
``view dropout strategy'' that discards a substantial number of output views
during training, which reduces the training-time memory footprint and enables
dense and high-resolution view synthesis at test time. We use the Objaverse for
training and the Google Scanned Objects for evaluation with standard novel view
synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly
outperforms the current state of the arts. We also demonstrate a text-to-3D
application example by combining MVDiffusion++ with a text-to-image generative
model.Summary
AI-Generated Summary