ChatPaper.aiChatPaper

SyncDiffusion: Montaje Coherente mediante Difusiones Conjuntas Sincronizadas

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

June 8, 2023
Autores: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI

Resumen

Las notables capacidades de los modelos de difusión de imágenes preentrenados se han utilizado no solo para generar imágenes de tamaño fijo, sino también para crear panoramas. Sin embargo, la unión ingenua de múltiples imágenes a menudo resulta en costuras visibles. Técnicas recientes han intentado abordar este problema realizando difusiones conjuntas en múltiples ventanas y promediando características latentes en regiones superpuestas. No obstante, estos enfoques, que se centran en la generación de montajes sin costuras, a menudo producen resultados incoherentes al mezclar diferentes escenas dentro de una sola imagen. Para superar esta limitación, proponemos SyncDiffusion, un módulo plug-and-play que sincroniza múltiples difusiones mediante el descenso de gradiente a partir de una pérdida de similitud perceptual. Específicamente, calculamos el gradiente de la pérdida perceptual utilizando las imágenes desruidosas predichas en cada paso de desruido, proporcionando una guía significativa para lograr montajes coherentes. Nuestros resultados experimentales demuestran que nuestro método produce resultados significativamente más coherentes en comparación con métodos anteriores (66.35% vs. 33.65% en nuestro estudio de usuarios), manteniendo al mismo tiempo la fidelidad (evaluada por GIQA) y la compatibilidad con la entrada de texto (medida por el puntaje CLIP).
English
The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).
PDF70December 15, 2024