DragonDiffusion: Abilitare la Manipolazione in Stile Drag sui Modelli di Diffusione
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
Autori: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Abstract
Nonostante la capacità dei modelli esistenti su larga scala di generazione di immagini da testo (T2I) di produrre immagini di alta qualità a partire da descrizioni testuali dettagliate, spesso mancano della capacità di modificare con precisione le immagini generate o reali. In questo articolo, proponiamo un nuovo metodo di editing delle immagini, DragonDiffusion, che consente una manipolazione di tipo Drag sui modelli di diffusione. Nello specifico, costruiamo una guida basata su classificatori sfruttando la forte corrispondenza delle caratteristiche intermedie nel modello di diffusione. Questo approccio può trasformare i segnali di editing in gradienti attraverso una perdita di corrispondenza delle caratteristiche, modificando così la rappresentazione intermedia del modello di diffusione. Basandoci su questa strategia di guida, abbiamo anche sviluppato una guida multi-scala per considerare sia l'allineamento semantico che quello geometrico. Inoltre, è stato aggiunto un meccanismo di self-attention cross-branch per mantenere la coerenza tra l'immagine originale e il risultato dell'editing. Il nostro metodo, grazie a un design efficiente, consente diverse modalità di editing per immagini generate o reali, come lo spostamento di oggetti, il ridimensionamento di oggetti, la sostituzione dell'aspetto degli oggetti e il trascinamento di contenuti. È importante notare che tutti i segnali di editing e di conservazione del contenuto provengono dall'immagine stessa, e il modello non richiede fine-tuning o moduli aggiuntivi. Il nostro codice sorgente sarà disponibile all'indirizzo https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.