SyncDiffusion: Kohärente Montage durch synchronisierte gemeinsame Diffusionen
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Autoren: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Zusammenfassung
Die bemerkenswerten Fähigkeiten vortrainierter Bilddiffusionsmodelle wurden nicht nur zur Erzeugung von Bildern fester Größe, sondern auch zur Erstellung von Panoramen genutzt. Allerdings führt das naive Zusammenfügen mehrerer Bilder oft zu sichtbaren Nahtstellen. Neuere Techniken haben versucht, dieses Problem zu lösen, indem sie gemeinsame Diffusionen in mehreren Fenstern durchführen und latente Merkmale in überlappenden Regionen mitteln. Diese Ansätze, die sich auf die nahtlose Erstellung von Montagen konzentrieren, führen jedoch oft zu inkohärenten Ergebnissen, indem sie verschiedene Szenen innerhalb eines einzelnen Bildes vermischen. Um diese Einschränkung zu überwinden, schlagen wir SyncDiffusion vor, ein Plug-and-Play-Modul, das mehrere Diffusionen durch Gradientenabstieg aus einem wahrnehmungsbasierten Ähnlichkeitsverlust synchronisiert. Konkret berechnen wir den Gradienten des wahrnehmungsbasierten Verlusts anhand der vorhergesagten entrauschten Bilder in jedem Entrauschungsschritt, wodurch eine sinnvolle Anleitung zur Erzielung kohärenter Montagen bereitgestellt wird. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu früheren Methoden deutlich kohärentere Ergebnisse liefert (66,35 % gegenüber 33,65 % in unserer Nutzerstudie), während gleichzeitig die Treue (bewertet durch GIQA) und die Kompatibilität mit dem Eingabe-Prompt (gemessen durch den CLIP-Score) erhalten bleiben.
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).