Reale Bildvariation durch Ausrichtung der Diffusionsinversionskette
Real-World Image Variation by Aligning Diffusion Inversion Chain
May 30, 2023
Autoren: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Diffusionsmodellen haben es ermöglicht, hochauflösende Bilder mithilfe von Textbeschreibungen zu generieren. Es besteht jedoch eine Domänenlücke zwischen generierten Bildern und realen Bildern, was die Erzeugung hochwertiger Variationen realer Bilder erschwert. Unsere Untersuchung zeigt, dass diese Domänenlücke auf eine Verteilungslücke der latenten Variablen in verschiedenen Diffusionsprozessen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir eine neuartige Inferenzpipeline namens Real-world Image Variation by ALignment (RIVAL) vor, die Diffusionsmodelle nutzt, um Bildvariationen aus einem einzelnen Bildbeispiel zu erzeugen. Unsere Pipeline verbessert die Generierungsqualität von Bildvariationen, indem sie den Bildgenerierungsprozess an die Inversionskette des Quellbilds anpasst. Insbesondere zeigen wir, dass eine schrittweise Ausrichtung der latenten Verteilung entscheidend für die Erzeugung hochwertiger Variationen ist. Um dies zu erreichen, entwerfen wir eine selbstaufmerksamkeitsbasierte Feature-Interaktion über Bilder hinweg sowie eine schrittweise Verteilungsnormalisierung, um die latenten Merkmale auszurichten. Die Integration dieser Anpassungsprozesse in ein Diffusionsmodell ermöglicht es RIVAL, hochwertige Bildvariationen ohne weitere Parameteroptimierung zu generieren. Unsere experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz bestehende Methoden hinsichtlich semantischer Ähnlichkeit und wahrgenommener Qualität übertrifft. Darüber hinaus kann diese verallgemeinerte Inferenzpipeline leicht auf andere diffusionsbasierte Generierungsaufgaben angewendet werden, wie z. B. bildgestützte Text-zu-Bild-Generierung und beispielbasierte Bildinpainting.
English
Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods with
respect to semantic-condition similarity and perceptual quality. Furthermore,
this generalized inference pipeline can be easily applied to other
diffusion-based generation tasks, such as image-conditioned text-to-image
generation and example-based image inpainting.