DiffEditor: Aumentando a Precisão e Flexibilidade na Edição de Imagens Baseada em Difusão
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
Autores: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Resumo
Modelos de difusão Texto-para-Imagem (T2I) em larga escala revolucionaram a geração de imagens nos últimos anos. Embora possuam capacidades de geração diversas e de alta qualidade, traduzir essas habilidades para a edição de imagens em nível refinado continua sendo um desafio. Neste artigo, propomos o DiffEditor para corrigir duas fraquezas na edição de imagens baseada em difusão existente: (1) em cenários complexos, os resultados da edição frequentemente carecem de precisão e exibem artefatos inesperados; (2) falta de flexibilidade para harmonizar operações de edição, por exemplo, imaginar novo conteúdo. Em nossa solução, introduzimos prompts de imagem na edição de imagens em nível refinado, cooperando com o prompt de texto para descrever melhor o conteúdo da edição. Para aumentar a flexibilidade enquanto mantemos a consistência do conteúdo, combinamos localmente a equação diferencial estocástica (SDE) na amostragem da equação diferencial ordinária (ODE). Além disso, incorporamos orientação de gradiente baseada em pontuação regional e uma estratégia de viagem no tempo na amostragem de difusão, melhorando ainda mais a qualidade da edição. Experimentos extensivos demonstram que nosso método pode alcançar eficientemente desempenho de última geração em várias tarefas de edição de imagens em nível refinado, incluindo edição dentro de uma única imagem (por exemplo, movimentação de objetos, redimensionamento e arrastamento de conteúdo) e entre imagens (por exemplo, substituição de aparência e colagem de objetos). Nosso código-fonte está disponível em https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.