ChatPaper.aiChatPaper

DiffEditor: Steigerung von Genauigkeit und Flexibilität bei diffusionsbasierter Bildbearbeitung

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

February 4, 2024
Autoren: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

Zusammenfassung

Groß angelegte Text-zu-Bild (T2I) Diffusionsmodelle haben die Bildgenerierung in den letzten Jahren revolutioniert. Obwohl sie über vielfältige und hochwertige Generierungsfähigkeiten verfügen, bleibt die Übertragung dieser Fähigkeiten auf die fein abgestimmte Bildbearbeitung eine Herausforderung. In diesem Artikel schlagen wir DiffEditor vor, um zwei Schwächen in der bestehenden diffusionsbasierten Bildbearbeitung zu beheben: (1) In komplexen Szenarien fehlt es den Bearbeitungsergebnissen oft an Genauigkeit und es treten unerwartete Artefakte auf; (2) Es mangelt an Flexibilität, um Bearbeitungsoperationen zu harmonisieren, z. B. um neue Inhalte zu imaginieren. In unserer Lösung führen wir Bildprompts in der fein abgestimmten Bildbearbeitung ein, die mit dem Textprompt zusammenarbeiten, um den Bearbeitungsinhalt besser zu beschreiben. Um die Flexibilität zu erhöhen und gleichzeitig die Inhaltskonsistenz zu wahren, kombinieren wir lokal stochastische Differentialgleichungen (SDE) in die gewöhnliche Differentialgleichung (ODE) Sampling. Darüber hinaus integrieren wir regionsbasierte Score-Gradienten-Führung und eine Zeitreise-Strategie in das Diffusions-Sampling, was die Bearbeitungsqualität weiter verbessert. Umfangreiche Experimente zeigen, dass unsere Methode effizient state-of-the-art Leistung bei verschiedenen fein abgestimmten Bildbearbeitungsaufgaben erreichen kann, einschließlich der Bearbeitung innerhalb eines einzelnen Bildes (z. B. Objektverschiebung, Größenänderung und Inhaltsziehen) und über Bilder hinweg (z. B. Erscheinungsbildersetzung und Objekteinfügung). Unser Quellcode ist unter https://github.com/MC-E/DragonDiffusion veröffentlicht.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image generation over the last few years. Although owning diverse and high-quality generation capabilities, translating these abilities to fine-grained image editing remains challenging. In this paper, we propose DiffEditor to rectify two weaknesses in existing diffusion-based image editing: (1) in complex scenarios, editing results often lack editing accuracy and exhibit unexpected artifacts; (2) lack of flexibility to harmonize editing operations, e.g., imagine new content. In our solution, we introduce image prompts in fine-grained image editing, cooperating with the text prompt to better describe the editing content. To increase the flexibility while maintaining content consistency, we locally combine stochastic differential equation (SDE) into the ordinary differential equation (ODE) sampling. In addition, we incorporate regional score-based gradient guidance and a time travel strategy into the diffusion sampling, further improving the editing quality. Extensive experiments demonstrate that our method can efficiently achieve state-of-the-art performance on various fine-grained image editing tasks, including editing within a single image (e.g., object moving, resizing, and content dragging) and across images (e.g., appearance replacing and object pasting). Our source code is released at https://github.com/MC-E/DragonDiffusion.
PDF81December 15, 2024