DragonDiffusion: Drag-stijl Manipulatie Mogelijk Maken op Diffusiemodellen
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
Auteurs: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Samenvatting
Ondanks het vermogen van bestaande grootschalige tekst-naar-beeld (T2I) modellen om hoogwaardige afbeeldingen te genereren vanuit gedetailleerde tekstuele beschrijvingen, ontbreekt het hen vaak aan de mogelijkheid om gegenereerde of echte afbeeldingen precies te bewerken. In dit artikel stellen we een nieuwe beeldbewerkingsmethode voor, DragonDiffusion, die Drag-style manipulatie mogelijk maakt op Diffusion-modellen. Specifiek construeren we classifier guidance op basis van de sterke correspondentie van tussenliggende kenmerken in het diffusion-model. Dit kan de bewerkingssignalen omzetten in gradienten via een kenmerkcorrespondentieverlies om de tussenliggende representatie van het diffusion-model aan te passen. Op basis van deze guidance-strategie bouwen we ook een multi-scale guidance om zowel semantische als geometrische uitlijning te overwegen. Bovendien wordt een cross-branch self-attention toegevoegd om de consistentie tussen het originele beeld en het bewerkingsresultaat te behouden. Onze methode bereikt, door een efficiënt ontwerp, verschillende bewerkingsmodi voor gegenereerde of echte afbeeldingen, zoals objectverplaatsing, objectgrootteaanpassing, objectuiterlijkvervanging en inhoudslepen. Het is vermeldenswaard dat alle bewerkings- en inhoudsbehoudsignalen afkomstig zijn van het beeld zelf, en het model vereist geen fine-tuning of aanvullende modules. Onze broncode zal beschikbaar zijn op https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.