ChatPaper.aiChatPaper

Variation d'images réelles par alignement de la chaîne d'inversion de diffusion

Real-World Image Variation by Aligning Diffusion Inversion Chain

May 30, 2023
Auteurs: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI

Résumé

Les récentes avancées des modèles de diffusion ont permis de générer des images haute fidélité à partir de prompts textuels. Cependant, un écart de domaine existe entre les images générées et les images du monde réel, ce qui pose un défi pour générer des variations de haute qualité d'images réelles. Notre étude révèle que cet écart de domaine provient d'une différence de distribution des latents dans les différents processus de diffusion. Pour résoudre ce problème, nous proposons une nouvelle pipeline d'inférence appelée Real-world Image Variation by ALignment (RIVAL) qui utilise des modèles de diffusion pour générer des variations d'images à partir d'un seul exemplaire d'image. Notre pipeline améliore la qualité de génération des variations d'images en alignant le processus de génération d'images sur la chaîne d'inversion de l'image source. Plus précisément, nous démontrons qu'un alignement pas à pas de la distribution des latents est essentiel pour générer des variations de haute qualité. Pour y parvenir, nous concevons une injection d'auto-attention croisée entre images pour l'interaction des caractéristiques et une normalisation pas à pas de la distribution pour aligner les caractéristiques latentes. L'intégration de ces processus d'alignement dans un modèle de diffusion permet à RIVAL de générer des variations d'images de haute qualité sans optimisation supplémentaire des paramètres. Nos résultats expérimentaux montrent que notre approche proposée surpasse les méthodes existantes en termes de similarité de condition sémantique et de qualité perceptuelle. De plus, cette pipeline d'inférence généralisée peut être facilement appliquée à d'autres tâches de génération basées sur la diffusion, telles que la génération texte-à-image conditionnée par l'image et la réparation d'images basée sur des exemples.
English
Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods with respect to semantic-condition similarity and perceptual quality. Furthermore, this generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and example-based image inpainting.
PDF41December 15, 2024