Variazione di Immagini Reali mediante Allineamento della Catena di Inversione della Diffusione

Abstract

I recenti progressi nei modelli di diffusione hanno reso possibile generare immagini ad alta fedeltà utilizzando prompt testuali. Tuttavia, esiste un divario di dominio tra le immagini generate e quelle del mondo reale, il che rappresenta una sfida nella generazione di variazioni di alta qualità di immagini reali. La nostra indagine rivela che questo divario di dominio origina da una differenza nella distribuzione dei latenti nei diversi processi di diffusione. Per affrontare questo problema, proponiamo una nuova pipeline di inferenza chiamata Real-world Image Variation by ALignment (RIVAL) che utilizza modelli di diffusione per generare variazioni di immagini a partire da un singolo esemplare di immagine. La nostra pipeline migliora la qualità della generazione delle variazioni di immagini allineando il processo di generazione dell'immagine alla catena di inversione dell'immagine sorgente. In particolare, dimostriamo che l'allineamento passo-passo della distribuzione dei latenti è essenziale per generare variazioni di alta qualità. Per raggiungere questo obiettivo, progettiamo un'iniezione di self-attention cross-image per l'interazione delle feature e una normalizzazione passo-passo della distribuzione per allineare le feature latenti. L'incorporazione di questi processi di allineamento in un modello di diffusione consente a RIVAL di generare variazioni di immagini di alta qualità senza ulteriori ottimizzazioni dei parametri. I nostri risultati sperimentali dimostrano che il nostro approccio proposto supera i metodi esistenti in termini di somiglianza semantica-condizionale e qualità percettiva. Inoltre, questa pipeline di inferenza generalizzata può essere facilmente applicata ad altre attività di generazione basate su diffusione, come la generazione di immagini da testo condizionata da immagini e il riempimento di immagini basato su esempi.

English

Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods with respect to semantic-condition similarity and perceptual quality. Furthermore, this generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and example-based image inpainting.

Variazione di Immagini Reali mediante Allineamento della Catena di Inversione della Diffusione

Real-World Image Variation by Aligning Diffusion Inversion Chain

Abstract

Support