ChatPaper.aiChatPaper

DragonDiffusion: Habilitando la manipulación estilo arrastre en modelos de difusión

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

July 5, 2023
Autores: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

Resumen

A pesar de la capacidad de los modelos existentes de texto a imagen (T2I) a gran escala para generar imágenes de alta calidad a partir de descripciones textuales detalladas, a menudo carecen de la capacidad para editar con precisión las imágenes generadas o reales. En este artículo, proponemos un novedoso método de edición de imágenes, DragonDiffusion, que permite la manipulación de estilo "Drag" en modelos de difusión. Específicamente, construimos una guía de clasificador basada en la fuerte correspondencia de características intermedias en el modelo de difusión. Esto puede transformar las señales de edición en gradientes mediante una pérdida de correspondencia de características para modificar la representación intermedia del modelo de difusión. Basándonos en esta estrategia de guía, también construimos una guía multiescala para considerar tanto la alineación semántica como la geométrica. Además, se añade una auto-atención entre ramas para mantener la consistencia entre la imagen original y el resultado de la edición. Nuestro método, a través de un diseño eficiente, logra varios modos de edición para imágenes generadas o reales, como el movimiento de objetos, el cambio de tamaño de objetos, la sustitución de la apariencia de objetos y el arrastre de contenido. Es importante destacar que todas las señales de edición y preservación de contenido provienen de la imagen misma, y el modelo no requiere ajustes finos ni módulos adicionales. Nuestro código fuente estará disponible en https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.
PDF345December 15, 2024