ChatPaper.aiChatPaper

DragonDiffusion : Permettre la manipulation de style glisser-déposer sur les modèles de diffusion

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

July 5, 2023
Auteurs: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

Résumé

Malgré la capacité des modèles existants de génération d'images à partir de texte (T2I) à grande échelle à produire des images de haute qualité à partir de descriptions textuelles détaillées, ils manquent souvent de précision pour modifier les images générées ou réelles. Dans cet article, nous proposons une nouvelle méthode d'édition d'images, DragonDiffusion, permettant une manipulation de type Drag sur les modèles de diffusion. Plus précisément, nous construisons un guidage par classificateur basé sur la forte correspondance des caractéristiques intermédiaires dans le modèle de diffusion. Cela permet de transformer les signaux d'édition en gradients via une perte de correspondance des caractéristiques pour modifier la représentation intermédiaire du modèle de diffusion. Sur la base de cette stratégie de guidage, nous construisons également un guidage multi-échelle pour prendre en compte à la fois l'alignement sémantique et géométrique. De plus, une auto-attention inter-branches est ajoutée pour maintenir la cohérence entre l'image originale et le résultat de l'édition. Notre méthode, grâce à une conception efficace, permet divers modes d'édition pour les images générées ou réelles, tels que le déplacement d'objets, le redimensionnement d'objets, le remplacement de l'apparence des objets et le glissement de contenu. Il est à noter que tous les signaux d'édition et de préservation du contenu proviennent de l'image elle-même, et le modèle ne nécessite ni ajustement fin ni modules supplémentaires. Notre code source sera disponible à l'adresse https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.
PDF345December 15, 2024