DiffEditor: Mejorando la precisión y flexibilidad en la edición de imágenes basada en difusión
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
Autores: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Resumen
Los modelos de difusión de texto a imagen (T2I) a gran escala han revolucionado la generación de imágenes en los últimos años. Aunque poseen capacidades de generación diversas y de alta calidad, trasladar estas habilidades a la edición de imágenes de gran detalle sigue siendo un desafío. En este artículo, proponemos DiffEditor para corregir dos debilidades en la edición de imágenes basada en difusión existente: (1) en escenarios complejos, los resultados de la edición a menudo carecen de precisión y presentan artefactos inesperados; (2) falta de flexibilidad para armonizar las operaciones de edición, por ejemplo, imaginar nuevo contenido. En nuestra solución, introducimos indicaciones de imagen en la edición de imágenes de gran detalle, que cooperan con la indicación de texto para describir mejor el contenido de la edición. Para aumentar la flexibilidad manteniendo la consistencia del contenido, combinamos localmente la ecuación diferencial estocástica (SDE) en el muestreo de la ecuación diferencial ordinaria (ODE). Además, incorporamos una guía de gradiente basada en puntuación regional y una estrategia de viaje en el tiempo en el muestreo de difusión, mejorando aún más la calidad de la edición. Experimentos extensos demuestran que nuestro método puede lograr eficientemente un rendimiento de vanguardia en diversas tareas de edición de imágenes de gran detalle, incluyendo la edición dentro de una sola imagen (por ejemplo, mover objetos, cambiar el tamaño y arrastrar contenido) y entre imágenes (por ejemplo, reemplazar apariencias y pegar objetos). Nuestro código fuente está disponible en https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.