SyncDiffusion: Kohärente Montage durch synchronisierte gemeinsame Diffusionen

Zusammenfassung

Die bemerkenswerten Fähigkeiten vortrainierter Bilddiffusionsmodelle wurden nicht nur zur Erzeugung von Bildern fester Größe, sondern auch zur Erstellung von Panoramen genutzt. Allerdings führt das naive Zusammenfügen mehrerer Bilder oft zu sichtbaren Nahtstellen. Neuere Techniken haben versucht, dieses Problem zu lösen, indem sie gemeinsame Diffusionen in mehreren Fenstern durchführen und latente Merkmale in überlappenden Regionen mitteln. Diese Ansätze, die sich auf die nahtlose Erstellung von Montagen konzentrieren, führen jedoch oft zu inkohärenten Ergebnissen, indem sie verschiedene Szenen innerhalb eines einzelnen Bildes vermischen. Um diese Einschränkung zu überwinden, schlagen wir SyncDiffusion vor, ein Plug-and-Play-Modul, das mehrere Diffusionen durch Gradientenabstieg aus einem wahrnehmungsbasierten Ähnlichkeitsverlust synchronisiert. Konkret berechnen wir den Gradienten des wahrnehmungsbasierten Verlusts anhand der vorhergesagten entrauschten Bilder in jedem Entrauschungsschritt, wodurch eine sinnvolle Anleitung zur Erzielung kohärenter Montagen bereitgestellt wird. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu früheren Methoden deutlich kohärentere Ergebnisse liefert (66,35 % gegenüber 33,65 % in unserer Nutzerstudie), während gleichzeitig die Treue (bewertet durch GIQA) und die Kompatibilität mit dem Eingabe-Prompt (gemessen durch den CLIP-Score) erhalten bleiben.

English

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).

SyncDiffusion: Kohärente Montage durch synchronisierte gemeinsame Diffusionen

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Zusammenfassung

Support