DiffEditor: Steigerung von Genauigkeit und Flexibilität bei diffusionsbasierter Bildbearbeitung
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
Autoren: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Zusammenfassung
Groß angelegte Text-zu-Bild (T2I) Diffusionsmodelle haben die Bildgenerierung in den letzten Jahren revolutioniert. Obwohl sie über vielfältige und hochwertige Generierungsfähigkeiten verfügen, bleibt die Übertragung dieser Fähigkeiten auf die fein abgestimmte Bildbearbeitung eine Herausforderung. In diesem Artikel schlagen wir DiffEditor vor, um zwei Schwächen in der bestehenden diffusionsbasierten Bildbearbeitung zu beheben: (1) In komplexen Szenarien fehlt es den Bearbeitungsergebnissen oft an Genauigkeit und es treten unerwartete Artefakte auf; (2) Es mangelt an Flexibilität, um Bearbeitungsoperationen zu harmonisieren, z. B. um neue Inhalte zu imaginieren. In unserer Lösung führen wir Bildprompts in der fein abgestimmten Bildbearbeitung ein, die mit dem Textprompt zusammenarbeiten, um den Bearbeitungsinhalt besser zu beschreiben. Um die Flexibilität zu erhöhen und gleichzeitig die Inhaltskonsistenz zu wahren, kombinieren wir lokal stochastische Differentialgleichungen (SDE) in die gewöhnliche Differentialgleichung (ODE) Sampling. Darüber hinaus integrieren wir regionsbasierte Score-Gradienten-Führung und eine Zeitreise-Strategie in das Diffusions-Sampling, was die Bearbeitungsqualität weiter verbessert. Umfangreiche Experimente zeigen, dass unsere Methode effizient state-of-the-art Leistung bei verschiedenen fein abgestimmten Bildbearbeitungsaufgaben erreichen kann, einschließlich der Bearbeitung innerhalb eines einzelnen Bildes (z. B. Objektverschiebung, Größenänderung und Inhaltsziehen) und über Bilder hinweg (z. B. Erscheinungsbildersetzung und Objekteinfügung). Unser Quellcode ist unter https://github.com/MC-E/DragonDiffusion veröffentlicht.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.