SyncDreamer: Generación de imágenes multivista consistentes a partir de una imagen de vista única
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
September 7, 2023
Autores: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI
Resumen
En este artículo, presentamos un nuevo modelo de difusión llamado que genera imágenes multivista consistentes a partir de una imagen de una sola vista. Utilizando modelos de difusión 2D a gran escala preentrenados, trabajos recientes como Zero123 demuestran la capacidad de generar vistas novedosas plausibles a partir de una imagen de un objeto con una sola vista. Sin embargo, mantener la consistencia en la geometría y los colores de las imágenes generadas sigue siendo un desafío. Para abordar este problema, proponemos un modelo de difusión multivista sincronizado que modela la distribución de probabilidad conjunta de imágenes multivista, permitiendo la generación de imágenes multivista consistentes en un único proceso inverso. SyncDreamer sincroniza los estados intermedios de todas las imágenes generadas en cada paso del proceso inverso mediante un mecanismo de atención de características 3D que correlaciona las características correspondientes en diferentes vistas. Los experimentos muestran que SyncDreamer genera imágenes con alta consistencia entre diferentes vistas, lo que lo hace adecuado para diversas tareas de generación 3D, como síntesis de vistas novedosas, texto-a-3D e imagen-a-3D.
English
In this paper, we present a novel diffusion model called that generates
multiview-consistent images from a single-view image. Using pretrained
large-scale 2D diffusion models, recent work Zero123 demonstrates the ability
to generate plausible novel views from a single-view image of an object.
However, maintaining consistency in geometry and colors for the generated
images remains a challenge. To address this issue, we propose a synchronized
multiview diffusion model that models the joint probability distribution of
multiview images, enabling the generation of multiview-consistent images in a
single reverse process. SyncDreamer synchronizes the intermediate states of all
the generated images at every step of the reverse process through a 3D-aware
feature attention mechanism that correlates the corresponding features across
different views. Experiments show that SyncDreamer generates images with high
consistency across different views, thus making it well-suited for various 3D
generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.