SyncDiffusion: Montagem Coerente por meio de Difusões Conjuntas Sincronizadas
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
June 8, 2023
Autores: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
cs.AI
Resumo
As capacidades notáveis dos modelos de difusão de imagens pré-treinados têm sido utilizadas não apenas para gerar imagens de tamanho fixo, mas também para criar panoramas. No entanto, a junção ingênua de múltiplas imagens frequentemente resulta em costuras visíveis. Técnicas recentes têm tentado abordar esse problema realizando difusões conjuntas em múltiplas janelas e calculando a média das características latentes em regiões sobrepostas. No entanto, essas abordagens, que focam na geração de montagens sem costuras, frequentemente produzem saídas incoerentes ao mesclar diferentes cenas em uma única imagem. Para superar essa limitação, propomos o SyncDiffusion, um módulo plug-and-play que sincroniza múltiplas difusões por meio de descida de gradiente a partir de uma perda de similaridade perceptual. Especificamente, calculamos o gradiente da perda perceptual utilizando as imagens desruídas previstas em cada etapa de desruído, fornecendo orientação significativa para alcançar montagens coerentes. Nossos resultados experimentais demonstram que nosso método produz saídas significativamente mais coerentes em comparação com métodos anteriores (66,35% vs. 33,65% em nosso estudo com usuários), mantendo ainda a fidelidade (avaliada pelo GIQA) e a compatibilidade com o prompt de entrada (medida pelo escore CLIP).
English
The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).