DragonDiffusion: Habilitando Manipulação no Estilo Drag em Modelos de Difusão

Resumo

Apesar da capacidade dos modelos existentes de grande escala de texto para imagem (T2I) gerarem imagens de alta qualidade a partir de descrições textuais detalhadas, eles frequentemente carecem da habilidade de editar com precisão as imagens geradas ou reais. Neste artigo, propomos um novo método de edição de imagens, o DragonDiffusion, que permite a manipulação no estilo Drag em modelos de difusão. Especificamente, construímos uma orientação de classificador baseada na forte correspondência de características intermediárias no modelo de difusão. Isso pode transformar os sinais de edição em gradientes por meio de uma perda de correspondência de características para modificar a representação intermediária do modelo de difusão. Com base nessa estratégia de orientação, também construímos uma orientação multiescala para considerar tanto o alinhamento semântico quanto o geométrico. Além disso, uma auto-atenção entre ramos é adicionada para manter a consistência entre a imagem original e o resultado da edição. Nosso método, por meio de um design eficiente, alcança vários modos de edição para imagens geradas ou reais, como movimentação de objetos, redimensionamento de objetos, substituição de aparência de objetos e arrastamento de conteúdo. Vale ressaltar que todos os sinais de edição e preservação de conteúdo vêm da própria imagem, e o modelo não requer ajuste fino ou módulos adicionais. Nosso código-fonte estará disponível em https://github.com/MC-E/DragonDiffusion.

English

Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.

DragonDiffusion: Habilitando Manipulação no Estilo Drag em Modelos de Difusão

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

Resumo

Support