ChatPaper.aiChatPaper

Reale Bildvariation durch Ausrichtung der Diffusionsinversionskette

Real-World Image Variation by Aligning Diffusion Inversion Chain

May 30, 2023
Autoren: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Diffusionsmodellen haben es ermöglicht, hochauflösende Bilder mithilfe von Textbeschreibungen zu generieren. Es besteht jedoch eine Domänenlücke zwischen generierten Bildern und realen Bildern, was die Erzeugung hochwertiger Variationen realer Bilder erschwert. Unsere Untersuchung zeigt, dass diese Domänenlücke auf eine Verteilungslücke der latenten Variablen in verschiedenen Diffusionsprozessen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir eine neuartige Inferenzpipeline namens Real-world Image Variation by ALignment (RIVAL) vor, die Diffusionsmodelle nutzt, um Bildvariationen aus einem einzelnen Bildbeispiel zu erzeugen. Unsere Pipeline verbessert die Generierungsqualität von Bildvariationen, indem sie den Bildgenerierungsprozess an die Inversionskette des Quellbilds anpasst. Insbesondere zeigen wir, dass eine schrittweise Ausrichtung der latenten Verteilung entscheidend für die Erzeugung hochwertiger Variationen ist. Um dies zu erreichen, entwerfen wir eine selbstaufmerksamkeitsbasierte Feature-Interaktion über Bilder hinweg sowie eine schrittweise Verteilungsnormalisierung, um die latenten Merkmale auszurichten. Die Integration dieser Anpassungsprozesse in ein Diffusionsmodell ermöglicht es RIVAL, hochwertige Bildvariationen ohne weitere Parameteroptimierung zu generieren. Unsere experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz bestehende Methoden hinsichtlich semantischer Ähnlichkeit und wahrgenommener Qualität übertrifft. Darüber hinaus kann diese verallgemeinerte Inferenzpipeline leicht auf andere diffusionsbasierte Generierungsaufgaben angewendet werden, wie z. B. bildgestützte Text-zu-Bild-Generierung und beispielbasierte Bildinpainting.
English
Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods with respect to semantic-condition similarity and perceptual quality. Furthermore, this generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and example-based image inpainting.
PDF41December 15, 2024