Variación de Imágenes del Mundo Real mediante la Alineación de la Cadena de Inversión de Difusión
Real-World Image Variation by Aligning Diffusion Inversion Chain
May 30, 2023
Autores: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI
Resumen
Los recientes avances en los modelos de difusión han permitido generar imágenes de alta fidelidad utilizando indicaciones de texto. Sin embargo, existe una brecha de dominio entre las imágenes generadas y las imágenes del mundo real, lo que plantea un desafío para generar variaciones de alta calidad de imágenes del mundo real. Nuestra investigación revela que esta brecha de dominio se origina en una diferencia en la distribución de los latentes en diferentes procesos de difusión. Para abordar este problema, proponemos una novedosa canalización de inferencia llamada Variación de Imágenes del Mundo Real mediante Alineación (RIVAL, por sus siglas en inglés), que utiliza modelos de difusión para generar variaciones de imágenes a partir de un único ejemplar de imagen. Nuestra canalización mejora la calidad de la generación de variaciones de imágenes al alinear el proceso de generación de imágenes con la cadena de inversión de la imagen de origen. Específicamente, demostramos que la alineación paso a paso de la distribución de los latentes es esencial para generar variaciones de alta calidad. Para lograrlo, diseñamos una inyección de auto-atención entre imágenes para la interacción de características y una normalización de distribución paso a paso para alinear las características latentes. La incorporación de estos procesos de alineación en un modelo de difusión permite que RIVAL genere variaciones de imágenes de alta calidad sin necesidad de una optimización adicional de parámetros. Nuestros resultados experimentales demuestran que nuestro enfoque propuesto supera a los métodos existentes en cuanto a similitud de condición semántica y calidad perceptual. Además, esta canalización de inferencia generalizada puede aplicarse fácilmente a otras tareas de generación basadas en difusión, como la generación de texto a imagen condicionada por imagen y la restauración de imágenes basada en ejemplos.
English
Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods with
respect to semantic-condition similarity and perceptual quality. Furthermore,
this generalized inference pipeline can be easily applied to other
diffusion-based generation tasks, such as image-conditioned text-to-image
generation and example-based image inpainting.