DragonDiffusion: Ermöglichung von Drag-Stil-Manipulationen in Diffusionsmodellen
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
Autoren: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Zusammenfassung
Obwohl bestehende großskalige Text-zu-Bild (T2I)-Modelle in der Lage sind, hochwertige Bilder aus detaillierten textuellen Beschreibungen zu generieren, fehlt ihnen oft die Fähigkeit, generierte oder reale Bilder präzise zu bearbeiten. In diesem Artikel schlagen wir eine neuartige Bildbearbeitungsmethode vor, DragonDiffusion, die Drag-artige Manipulationen an Diffusionsmodellen ermöglicht. Konkret konstruieren wir eine Klassifikatorführung basierend auf der starken Korrespondenz von Zwischenmerkmalen im Diffusionsmodell. Diese kann die Bearbeitungssignale über einen Merkmalskorrespondenzverlust in Gradienten umwandeln, um die Zwischendarstellung des Diffusionsmodells zu modifizieren. Basierend auf dieser Führungsstrategie entwickeln wir auch eine mehrskalige Führung, die sowohl semantische als auch geometrische Ausrichtung berücksichtigt. Darüber hinaus wird eine selbstaufmerksame Kreuzverzweigung hinzugefügt, um die Konsistenz zwischen dem Originalbild und dem Bearbeitungsergebnis zu bewahren. Unsere Methode erreicht durch ein effizientes Design verschiedene Bearbeitungsmodi für generierte oder reale Bilder, wie Objektverschiebung, Objektgrößenänderung, Objekterscheinungsersatz und Inhaltsziehen. Es ist bemerkenswert, dass alle Bearbeitungs- und Inhaltserhaltungssignale vom Bild selbst stammen und das Modell weder Feinabstimmung noch zusätzliche Module erfordert. Unser Quellcode wird unter https://github.com/MC-E/DragonDiffusion verfügbar sein.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.