MVDream: Difusión multivista para generación 3D
MVDream: Multi-view Diffusion for 3D Generation
August 31, 2023
Autores: Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang
cs.AI
Resumen
Proponemos MVDream, un modelo de difusión multi-vista capaz de generar imágenes multi-vista geométricamente consistentes a partir de un texto de entrada. Al aprovechar modelos de difusión de imágenes preentrenados en grandes conjuntos de datos web y un conjunto de datos multi-vista renderizado a partir de activos 3D, el modelo de difusión multi-vista resultante puede lograr tanto la generalización de la difusión 2D como la consistencia de los datos 3D. Dicho modelo puede aplicarse como un prior multi-vista para la generación 3D mediante Score Distillation Sampling, donde mejora significativamente la estabilidad de los métodos existentes de elevación 2D al resolver el problema de consistencia 3D. Finalmente, demostramos que el modelo de difusión multi-vista también puede ajustarse en un entorno de pocas muestras para la generación 3D personalizada, es decir, en la aplicación DreamBooth3D, donde la consistencia se mantiene después de aprender la identidad del sujeto.
English
We propose MVDream, a multi-view diffusion model that is able to generate
geometrically consistent multi-view images from a given text prompt. By
leveraging image diffusion models pre-trained on large-scale web datasets and a
multi-view dataset rendered from 3D assets, the resulting multi-view diffusion
model can achieve both the generalizability of 2D diffusion and the consistency
of 3D data. Such a model can thus be applied as a multi-view prior for 3D
generation via Score Distillation Sampling, where it greatly improves the
stability of existing 2D-lifting methods by solving the 3D consistency problem.
Finally, we show that the multi-view diffusion model can also be fine-tuned
under a few shot setting for personalized 3D generation, i.e. DreamBooth3D
application, where the consistency can be maintained after learning the subject
identity.