SyncDiffusion: Coherente Montage via Gesynchroniseerde Gezamenlijke Diffusies
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Auteurs: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Samenvatting
De opmerkelijke mogelijkheden van vooraf getrainde beelddiffusiemodellen zijn niet alleen benut voor het genereren van afbeeldingen met vaste afmetingen, maar ook voor het creëren van panorama's. Eenvoudige samenvoeging van meerdere afbeeldingen resulteert echter vaak in zichtbare naden. Recente technieken hebben geprobeerd dit probleem aan te pakken door gezamenlijke diffusies uit te voeren in meerdere vensters en latente kenmerken in overlappende gebieden te middelen. Deze benaderingen, die zich richten op naadloze montagegeneratie, leveren echter vaak onsamenhangende resultaten op door verschillende scènes binnen één afbeelding te mengen. Om deze beperking te overwinnen, stellen we SyncDiffusion voor, een plug-and-play module die meerdere diffusies synchroniseert via gradient descent op basis van een perceptueel gelijkheidsverlies. Specifiek berekenen we de gradient van het perceptuele verlies met behulp van de voorspelde ontruisde afbeeldingen bij elke denoisestap, wat zinvolle begeleiding biedt voor het bereiken van samenhangende montages. Onze experimentele resultaten tonen aan dat onze methode aanzienlijk samenhangendere resultaten oplevert in vergelijking met eerdere methoden (66,35% vs. 33,65% in onze gebruikersstudie), terwijl de trouw (beoordeeld door GIQA) en compatibiliteit met de invoerprompt (gemeten door CLIP-score) behouden blijven.
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).