SyncDreamer: Erzeugung multiview-konsistenter Bilder aus einem Einzelbild
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
September 7, 2023
Autoren: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI
Zusammenfassung
In diesem Artikel stellen wir ein neuartiges Diffusionsmodell vor, das multiview-konsistente Bilder aus einem Einzelbild erzeugt. Unter Verwendung von vortrainierten großskaligen 2D-Diffusionsmodellen zeigt die aktuelle Arbeit Zero123 die Fähigkeit, plausible neue Ansichten aus einem Einzelbild eines Objekts zu generieren. Die Konsistenz in Geometrie und Farben für die generierten Bilder bleibt jedoch eine Herausforderung. Um dieses Problem zu lösen, schlagen wir ein synchronisiertes Multiview-Diffusionsmodell vor, das die gemeinsame Wahrscheinlichkeitsverteilung von Multiview-Bildern modelliert und so die Erzeugung von multiview-konsistenten Bildern in einem einzigen Rückwärtsprozess ermöglicht. SyncDreamer synchronisiert die Zwischenzustände aller generierten Bilder in jedem Schritt des Rückwärtsprozesses durch einen 3D-bewussten Feature-Attentionsmechanismus, der die entsprechenden Merkmale über verschiedene Ansichten hinweg korreliert. Experimente zeigen, dass SyncDreamer Bilder mit hoher Konsistenz über verschiedene Ansichten hinweg erzeugt, wodurch es sich gut für verschiedene 3D-Generierungsaufgaben wie Novel-View-Synthese, Text-zu-3D und Bild-zu-3D eignet.
English
In this paper, we present a novel diffusion model called that generates
multiview-consistent images from a single-view image. Using pretrained
large-scale 2D diffusion models, recent work Zero123 demonstrates the ability
to generate plausible novel views from a single-view image of an object.
However, maintaining consistency in geometry and colors for the generated
images remains a challenge. To address this issue, we propose a synchronized
multiview diffusion model that models the joint probability distribution of
multiview images, enabling the generation of multiview-consistent images in a
single reverse process. SyncDreamer synchronizes the intermediate states of all
the generated images at every step of the reverse process through a 3D-aware
feature attention mechanism that correlates the corresponding features across
different views. Experiments show that SyncDreamer generates images with high
consistency across different views, thus making it well-suited for various 3D
generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.