SyncDreamer : Génération d'images multivues cohérentes à partir d'une image monovue
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
September 7, 2023
Auteurs: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI
Résumé
Dans cet article, nous présentons un nouveau modèle de diffusion appelé SyncDreamer, qui génère des images multivues cohérentes à partir d'une image monovue. En utilisant des modèles de diffusion 2D pré-entraînés à grande échelle, les travaux récents de Zero123 ont démontré la capacité à générer des vues plausibles d'un objet à partir d'une seule image. Cependant, maintenir la cohérence géométrique et chromatique des images générées reste un défi. Pour résoudre ce problème, nous proposons un modèle de diffusion multivue synchronisé qui modélise la distribution de probabilité conjointe des images multivues, permettant ainsi la génération d'images multivues cohérentes en un seul processus inverse. SyncDreamer synchronise les états intermédiaires de toutes les images générées à chaque étape du processus inverse grâce à un mécanisme d'attention de caractéristiques 3D qui corrèle les caractéristiques correspondantes à travers différentes vues. Les expériences montrent que SyncDreamer génère des images avec une grande cohérence entre les différentes vues, ce qui le rend particulièrement adapté à diverses tâches de génération 3D telles que la synthèse de nouvelles vues, le texte-à-3D et l'image-à-3D.
English
In this paper, we present a novel diffusion model called that generates
multiview-consistent images from a single-view image. Using pretrained
large-scale 2D diffusion models, recent work Zero123 demonstrates the ability
to generate plausible novel views from a single-view image of an object.
However, maintaining consistency in geometry and colors for the generated
images remains a challenge. To address this issue, we propose a synchronized
multiview diffusion model that models the joint probability distribution of
multiview images, enabling the generation of multiview-consistent images in a
single reverse process. SyncDreamer synchronizes the intermediate states of all
the generated images at every step of the reverse process through a 3D-aware
feature attention mechanism that correlates the corresponding features across
different views. Experiments show that SyncDreamer generates images with high
consistency across different views, thus making it well-suited for various 3D
generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.