LEDITS: Echtes Bildbearbeiten mit DDPM-Inversion und semantischer Steuerung
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Autoren: Linoy Tsaban, Apolinário Passos
cs.AI
Zusammenfassung
Aktuelle groß angelegte textgesteuerte Diffusionsmodelle bieten leistungsstarke Bildgenerierungsfähigkeiten. Derzeit wird ein erheblicher Aufwand betrieben, um die Bearbeitung dieser Bilder ausschließlich mittels Text zu ermöglichen, um intuitive und vielseitige Bearbeitungsmöglichkeiten zu bieten. Allerdings erweist sich die Bearbeitung für diese generativen Modelle als schwierig, da die inhärente Natur der Bearbeitungstechniken die Bewahrung bestimmter Inhalte des Originalbilds erfordert. Im Gegensatz dazu führen bei textbasierten Modellen bereits geringfügige Änderungen am Textprompt häufig zu einem völlig anderen Ergebnis, was die Erzielung einer One-Shot-Generierung, die genau der Benutzerabsicht entspricht, äußerst schwierig macht. Darüber hinaus muss man, um ein reales Bild mit diesen modernsten Werkzeugen zu bearbeiten, das Bild zunächst in den Bereich des vortrainierten Modells invertieren – was einen weiteren Faktor darstellt, der die Bearbeitungsqualität sowie die Latenz beeinflusst. In diesem explorativen Bericht schlagen wir LEDITS vor – einen kombinierten, leichtgewichtigen Ansatz für die Bearbeitung realer Bilder, der die Edit Friendly DDPM-Inversionstechnik mit semantischer Führung kombiniert und somit die semantische Führung auf die Bearbeitung realer Bilder ausdehnt, während gleichzeitig die Bearbeitungsfähigkeiten der DDPM-Inversion genutzt werden. Dieser Ansatz ermöglicht vielseitige Bearbeitungen, sowohl subtile als auch umfangreiche, sowie Änderungen in Komposition und Stil, ohne dass Optimierungen oder Erweiterungen der Architektur erforderlich sind.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.