Real-World Beeldvariatie door Uitlijning van Diffusie-Inversieketen
Real-World Image Variation by Aligning Diffusion Inversion Chain
May 30, 2023
Auteurs: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft het mogelijk gemaakt om hoogwaardige afbeeldingen te genereren met behulp van tekstprompts. Er bestaat echter een domeinkloof tussen gegenereerde afbeeldingen en afbeeldingen uit de echte wereld, wat een uitdaging vormt bij het genereren van hoogwaardige variaties van afbeeldingen uit de echte wereld. Ons onderzoek toont aan dat deze domeinkloof voortkomt uit een verschil in de verdeling van latente variabelen in verschillende diffusieprocessen. Om dit probleem aan te pakken, stellen we een nieuwe inferentiepipeline voor genaamd Real-world Image Variation by ALignment (RIVAL), die diffusiemodellen gebruikt om afbeeldingsvariaties te genereren vanuit een enkele afbeeldingsvoorbeeld. Onze pipeline verbetert de generatiekwaliteit van afbeeldingsvariaties door het afbeeldingsgeneratieproces af te stemmen op de inversieketen van de bronafbeelding. Specifiek tonen we aan dat stapgewijze uitlijning van de latente verdeling essentieel is voor het genereren van hoogwaardige variaties. Om dit te bereiken, ontwerpen we een cross-image self-attention injectie voor feature-interactie en een stapgewijze distributienormalisatie om de latente features uit te lijnen. Door deze uitlijningsprocessen te integreren in een diffusiemodel, kan RIVAL hoogwaardige afbeeldingsvariaties genereren zonder verdere parameteroptimalisatie. Onze experimentele resultaten tonen aan dat onze voorgestelde aanpak bestaande methoden overtreft wat betreft semantische-voorwaarde gelijkenis en perceptuele kwaliteit. Bovendien kan deze gegeneraliseerde inferentiepipeline eenvoudig worden toegepast op andere diffusiegebaseerde generatietaken, zoals afbeeldingsgeconditioneerde tekst-naar-afbeelding generatie en voorbeeldgebaseerde afbeeldingsinpainting.
English
Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods with
respect to semantic-condition similarity and perceptual quality. Furthermore,
this generalized inference pipeline can be easily applied to other
diffusion-based generation tasks, such as image-conditioned text-to-image
generation and example-based image inpainting.