SyncDiffusion: Montaggio Coerente tramite Diffusioni Congiunte Sincronizzate

Abstract

Le straordinarie capacità dei modelli di diffusione di immagini pre-addestrati sono state utilizzate non solo per generare immagini di dimensioni fisse, ma anche per creare panorami. Tuttavia, la semplice unione di più immagini spesso risulta in cuciture visibili. Tecniche recenti hanno cercato di affrontare questo problema eseguendo diffusioni congiunte in più finestre e mediando le caratteristiche latenti nelle regioni sovrapposte. Tuttavia, questi approcci, che si concentrano sulla generazione di montaggi senza soluzione di continuità, spesso producono output incoerenti mescolando scene diverse all'interno di una singola immagine. Per superare questa limitazione, proponiamo SyncDiffusion, un modulo plug-and-play che sincronizza più diffusioni attraverso la discesa del gradiente da una perdita di similarità percettiva. Nello specifico, calcoliamo il gradiente della perdita percettiva utilizzando le immagini denoisate previste ad ogni passo di denoising, fornendo una guida significativa per ottenere montaggi coerenti. I nostri risultati sperimentali dimostrano che il nostro metodo produce output significativamente più coerenti rispetto ai metodi precedenti (66,35% vs. 33,65% nel nostro studio utente) mantenendo comunque la fedeltà (valutata da GIQA) e la compatibilità con il prompt di input (misurata dal punteggio CLIP).

English

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).

SyncDiffusion: Montaggio Coerente tramite Diffusioni Congiunte Sincronizzate

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Abstract

Support