SyncDiffusion: Montaggio Coerente tramite Diffusioni Congiunte Sincronizzate
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Autori: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Abstract
Le straordinarie capacità dei modelli di diffusione di immagini pre-addestrati sono state utilizzate non solo per generare immagini di dimensioni fisse, ma anche per creare panorami. Tuttavia, la semplice unione di più immagini spesso risulta in cuciture visibili. Tecniche recenti hanno cercato di affrontare questo problema eseguendo diffusioni congiunte in più finestre e mediando le caratteristiche latenti nelle regioni sovrapposte. Tuttavia, questi approcci, che si concentrano sulla generazione di montaggi senza soluzione di continuità, spesso producono output incoerenti mescolando scene diverse all'interno di una singola immagine. Per superare questa limitazione, proponiamo SyncDiffusion, un modulo plug-and-play che sincronizza più diffusioni attraverso la discesa del gradiente da una perdita di similarità percettiva. Nello specifico, calcoliamo il gradiente della perdita percettiva utilizzando le immagini denoisate previste ad ogni passo di denoising, fornendo una guida significativa per ottenere montaggi coerenti. I nostri risultati sperimentali dimostrano che il nostro metodo produce output significativamente più coerenti rispetto ai metodi precedenti (66,35% vs. 33,65% nel nostro studio utente) mantenendo comunque la fedeltà (valutata da GIQA) e la compatibilità con il prompt di input (misurata dal punteggio CLIP).
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).