ViewDiff: Generación de Imágenes 3D-Consistentes con Modelos de Texto a Imagen
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
March 4, 2024
Autores: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI
Resumen
La generación de activos 3D está recibiendo una atención masiva, inspirada por el reciente éxito de la creación de contenido 2D guiado por texto. Los métodos existentes de texto a 3D utilizan modelos de difusión preentrenados de texto a imagen en un problema de optimización o los ajustan en datos sintéticos, lo que a menudo resulta en objetos 3D no fotorrealistas sin fondos. En este artículo, presentamos un método que aprovecha modelos preentrenados de texto a imagen como un prior y aprende a generar imágenes multivista en un único proceso de eliminación de ruido a partir de datos del mundo real. Concretamente, proponemos integrar capas de renderizado de volumen 3D y atención entre marcos en cada bloque de la red U-Net existente del modelo de texto a imagen. Además, diseñamos una generación autoregresiva que renderiza imágenes más consistentes en 3D desde cualquier punto de vista. Entrenamos nuestro modelo en conjuntos de datos del mundo real de objetos y demostramos su capacidad para generar instancias con una variedad de formas y texturas de alta calidad en entornos auténticos. En comparación con los métodos existentes, los resultados generados por nuestro método son consistentes y tienen una calidad visual favorable (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the
recent success of text-guided 2D content creation. Existing text-to-3D methods
use pretrained text-to-image diffusion models in an optimization problem or
fine-tune them on synthetic data, which often results in non-photorealistic 3D
objects without backgrounds. In this paper, we present a method that leverages
pretrained text-to-image models as a prior, and learn to generate multi-view
images in a single denoising process from real-world data. Concretely, we
propose to integrate 3D volume-rendering and cross-frame-attention layers into
each block of the existing U-Net network of the text-to-image model. Moreover,
we design an autoregressive generation that renders more 3D-consistent images
at any viewpoint. We train our model on real-world datasets of objects and
showcase its capabilities to generate instances with a variety of high-quality
shapes and textures in authentic surroundings. Compared to the existing
methods, the results generated by our method are consistent, and have favorable
visual quality (-30% FID, -37% KID).