SyncDreamer: Generazione di immagini multivista coerenti a partire da un'immagine a singola vista
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
September 7, 2023
Autori: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI
Abstract
In questo articolo, presentiamo un nuovo modello di diffusione chiamato SyncDreamer che genera immagini multivista coerenti a partire da un'immagine a singola vista. Utilizzando modelli di diffusione 2D su larga scala pre-addestrati, il recente lavoro Zero123 dimostra la capacità di generare nuove viste plausibili da un'immagine a singola vista di un oggetto. Tuttavia, mantenere la coerenza nella geometria e nei colori per le immagini generate rimane una sfida. Per affrontare questo problema, proponiamo un modello di diffusione multivista sincronizzato che modella la distribuzione di probabilità congiunta delle immagini multivista, consentendo la generazione di immagini multivista coerenti in un singolo processo inverso. SyncDreamer sincronizza gli stati intermedi di tutte le immagini generate a ogni passo del processo inverso attraverso un meccanismo di attenzione delle feature 3D che correla le feature corrispondenti tra diverse viste. Gli esperimenti dimostrano che SyncDreamer genera immagini con un'elevata coerenza tra diverse viste, rendendolo particolarmente adatto a varie attività di generazione 3D come la sintesi di nuove viste, il testo-a-3D e l'immagine-a-3D.
English
In this paper, we present a novel diffusion model called that generates
multiview-consistent images from a single-view image. Using pretrained
large-scale 2D diffusion models, recent work Zero123 demonstrates the ability
to generate plausible novel views from a single-view image of an object.
However, maintaining consistency in geometry and colors for the generated
images remains a challenge. To address this issue, we propose a synchronized
multiview diffusion model that models the joint probability distribution of
multiview images, enabling the generation of multiview-consistent images in a
single reverse process. SyncDreamer synchronizes the intermediate states of all
the generated images at every step of the reverse process through a 3D-aware
feature attention mechanism that correlates the corresponding features across
different views. Experiments show that SyncDreamer generates images with high
consistency across different views, thus making it well-suited for various 3D
generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.