ChatPaper.aiChatPaper

SyncDreamer: Multiview-consistente afbeeldingen genereren vanuit een single-view afbeelding

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

September 7, 2023
Auteurs: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI

Samenvatting

In dit artikel presenteren we een nieuw diffusiemodel genaamd SyncDreamer dat multiview-consistente afbeeldingen genereert vanuit een enkelvoudige afbeelding. Met behulp van vooraf getrainde grootschalige 2D-diffusiemodellen toont recent werk, Zero123, de mogelijkheid om plausibele nieuwe aanzichten te genereren vanuit een enkelvoudige afbeelding van een object. Het handhaven van consistentie in geometrie en kleuren voor de gegenereerde afbeeldingen blijft echter een uitdaging. Om dit probleem aan te pakken, stellen we een gesynchroniseerd multiview-diffusiemodel voor dat de gezamenlijke kansverdeling van multiview-afbeeldingen modelleert, waardoor het mogelijk wordt om multiview-consistente afbeeldingen te genereren in een enkel omgekeerd proces. SyncDreamer synchroniseert de tussenliggende toestanden van alle gegenereerde afbeeldingen bij elke stap van het omgekeerde proces via een 3D-bewust aandachtmechanisme voor kenmerken dat de corresponderende kenmerken over verschillende aanzichten met elkaar in verband brengt. Experimenten tonen aan dat SyncDreamer afbeeldingen genereert met een hoge consistentie over verschillende aanzichten, waardoor het goed geschikt is voor diverse 3D-generatietaken zoals novel-view-synthese, tekst-naar-3D en afbeelding-naar-3D.
English
In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views from a single-view image of an object. However, maintaining consistency in geometry and colors for the generated images remains a challenge. To address this issue, we propose a synchronized multiview diffusion model that models the joint probability distribution of multiview images, enabling the generation of multiview-consistent images in a single reverse process. SyncDreamer synchronizes the intermediate states of all the generated images at every step of the reverse process through a 3D-aware feature attention mechanism that correlates the corresponding features across different views. Experiments show that SyncDreamer generates images with high consistency across different views, thus making it well-suited for various 3D generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.
PDF135December 15, 2024