DragonDiffusion: Habilitando Manipulação no Estilo Drag em Modelos de Difusão
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
Autores: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Resumo
Apesar da capacidade dos modelos existentes de grande escala de texto para imagem (T2I) gerarem imagens de alta qualidade a partir de descrições textuais detalhadas, eles frequentemente carecem da habilidade de editar com precisão as imagens geradas ou reais. Neste artigo, propomos um novo método de edição de imagens, o DragonDiffusion, que permite a manipulação no estilo Drag em modelos de difusão. Especificamente, construímos uma orientação de classificador baseada na forte correspondência de características intermediárias no modelo de difusão. Isso pode transformar os sinais de edição em gradientes por meio de uma perda de correspondência de características para modificar a representação intermediária do modelo de difusão. Com base nessa estratégia de orientação, também construímos uma orientação multiescala para considerar tanto o alinhamento semântico quanto o geométrico. Além disso, uma auto-atenção entre ramos é adicionada para manter a consistência entre a imagem original e o resultado da edição. Nosso método, por meio de um design eficiente, alcança vários modos de edição para imagens geradas ou reais, como movimentação de objetos, redimensionamento de objetos, substituição de aparência de objetos e arrastamento de conteúdo. Vale ressaltar que todos os sinais de edição e preservação de conteúdo vêm da própria imagem, e o modelo não requer ajuste fino ou módulos adicionais. Nosso código-fonte estará disponível em https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.