Variação de Imagens do Mundo Real através do Alinhamento da Cadeia de Inversão de Difusão
Real-World Image Variation by Aligning Diffusion Inversion Chain
May 30, 2023
Autores: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI
Resumo
Avanços recentes nos modelos de difusão permitiram a geração de imagens de alta fidelidade usando prompts de texto. No entanto, existe uma lacuna de domínio entre as imagens geradas e as imagens do mundo real, o que representa um desafio na geração de variações de alta qualidade de imagens do mundo real. Nossa investigação revela que essa lacuna de domínio origina-se de uma diferença na distribuição de latentes em diferentes processos de difusão. Para resolver esse problema, propomos um novo pipeline de inferência chamado Real-world Image Variation by ALignment (RIVAL), que utiliza modelos de difusão para gerar variações de imagens a partir de um único exemplar de imagem. Nosso pipeline melhora a qualidade da geração de variações de imagens alinhando o processo de geração de imagens à cadeia de inversão da imagem de origem. Especificamente, demonstramos que o alinhamento passo a passo da distribuição latente é essencial para gerar variações de alta qualidade. Para alcançar isso, projetamos uma injeção de auto-atenção entre imagens para interação de características e uma normalização de distribuição passo a passo para alinhar as características latentes. A incorporação desses processos de alinhamento em um modelo de difusão permite que o RIVAL gere variações de imagens de alta qualidade sem a necessidade de otimização adicional de parâmetros. Nossos resultados experimentais demonstram que a abordagem proposta supera os métodos existentes em termos de similaridade de condição semântica e qualidade perceptual. Além disso, esse pipeline de inferência generalizado pode ser facilmente aplicado a outras tarefas de geração baseadas em difusão, como geração de texto para imagem condicionada por imagem e preenchimento de imagens baseado em exemplos.
English
Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods with
respect to semantic-condition similarity and perceptual quality. Furthermore,
this generalized inference pipeline can be easily applied to other
diffusion-based generation tasks, such as image-conditioned text-to-image
generation and example-based image inpainting.