SyncDiffusion : Montage cohérent via diffusions conjointes synchronisées
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Auteurs: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Résumé
Les capacités remarquables des modèles de diffusion d'images pré-entraînés ont été exploitées non seulement pour générer des images de taille fixe, mais aussi pour créer des panoramas. Cependant, l'assemblage naïf de plusieurs images entraîne souvent des coutures visibles. Des techniques récentes ont tenté de résoudre ce problème en effectuant des diffusions conjointes dans plusieurs fenêtres et en moyennant les caractéristiques latentes dans les régions qui se chevauchent. Néanmoins, ces approches, qui se concentrent sur la génération de montages sans couture, produisent souvent des résultats incohérents en mélangeant différentes scènes au sein d'une même image. Pour surmonter cette limitation, nous proposons SyncDiffusion, un module plug-and-play qui synchronise plusieurs diffusions via une descente de gradient à partir d'une perte de similarité perceptuelle. Plus précisément, nous calculons le gradient de la perte perceptuelle en utilisant les images débruitées prédites à chaque étape de débruitage, fournissant ainsi un guide significatif pour obtenir des montages cohérents. Nos résultats expérimentaux montrent que notre méthode produit des sorties significativement plus cohérentes par rapport aux méthodes précédentes (66,35 % contre 33,65 % dans notre étude utilisateur) tout en conservant la fidélité (évaluée par GIQA) et la compatibilité avec l'invite d'entrée (mesurée par le score CLIP).
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).