SyncDiffusion: Coherente Montage via Gesynchroniseerde Gezamenlijke Diffusies

Samenvatting

De opmerkelijke mogelijkheden van vooraf getrainde beelddiffusiemodellen zijn niet alleen benut voor het genereren van afbeeldingen met vaste afmetingen, maar ook voor het creëren van panorama's. Eenvoudige samenvoeging van meerdere afbeeldingen resulteert echter vaak in zichtbare naden. Recente technieken hebben geprobeerd dit probleem aan te pakken door gezamenlijke diffusies uit te voeren in meerdere vensters en latente kenmerken in overlappende gebieden te middelen. Deze benaderingen, die zich richten op naadloze montagegeneratie, leveren echter vaak onsamenhangende resultaten op door verschillende scènes binnen één afbeelding te mengen. Om deze beperking te overwinnen, stellen we SyncDiffusion voor, een plug-and-play module die meerdere diffusies synchroniseert via gradient descent op basis van een perceptueel gelijkheidsverlies. Specifiek berekenen we de gradient van het perceptuele verlies met behulp van de voorspelde ontruisde afbeeldingen bij elke denoisestap, wat zinvolle begeleiding biedt voor het bereiken van samenhangende montages. Onze experimentele resultaten tonen aan dat onze methode aanzienlijk samenhangendere resultaten oplevert in vergelijking met eerdere methoden (66,35% vs. 33,65% in onze gebruikersstudie), terwijl de trouw (beoordeeld door GIQA) en compatibiliteit met de invoerprompt (gemeten door CLIP-score) behouden blijven.

English

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).

SyncDiffusion: Coherente Montage via Gesynchroniseerde Gezamenlijke Diffusies

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Samenvatting

Support