DiffEditor: Migliorare Precisione e Flessibilità nell'Editing di Immagini Basato su Diffusione
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
Autori: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Abstract
I modelli di diffusione Text-to-Image (T2I) su larga scala hanno rivoluzionato la generazione di immagini negli ultimi anni. Nonostante possiedano capacità di generazione diversificate e di alta qualità, tradurre queste abilità in un editing fine delle immagini rimane una sfida. In questo articolo, proponiamo DiffEditor per correggere due debolezze nell'editing basato su diffusione esistente: (1) in scenari complessi, i risultati dell'editing spesso mancano di precisione e presentano artefatti inaspettati; (2) la mancanza di flessibilità per armonizzare le operazioni di editing, ad esempio immaginare nuovi contenuti. Nella nostra soluzione, introduciamo prompt visivi nell'editing fine delle immagini, collaborando con il prompt testuale per descrivere meglio il contenuto da modificare. Per aumentare la flessibilità mantenendo la coerenza del contenuto, combiniamo localmente l'equazione differenziale stocastica (SDE) nel campionamento dell'equazione differenziale ordinaria (ODE). Inoltre, incorporiamo una guida al gradiente basata su punteggi regionali e una strategia di "viaggio nel tempo" nel campionamento della diffusione, migliorando ulteriormente la qualità dell'editing. Esperimenti estensivi dimostrano che il nostro metodo può raggiungere in modo efficiente prestazioni all'avanguardia in varie attività di editing fine delle immagini, inclusa la modifica all'interno di una singola immagine (ad esempio, spostamento di oggetti, ridimensionamento e trascinamento di contenuti) e tra immagini (ad esempio, sostituzione dell'aspetto e incollaggio di oggetti). Il nostro codice sorgente è disponibile all'indirizzo https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.