LEDITS: Realistische beeldbewerking met DDPM-inversie en semantische begeleiding
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Auteurs: Linoy Tsaban, Apolinário Passos
cs.AI
Samenvatting
Recente grootschalige tekstgestuurde diffusiemodellen bieden krachtige
mogelijkheden voor beeldgeneratie. Momenteel wordt er aanzienlijke inspanning
geleverd om het aanpassen van deze beelden mogelijk te maken met alleen tekst
als middel om intuïtieve en veelzijdige bewerkingen te bieden. Echter blijkt
bewerken moeilijk te zijn voor deze generatieve modellen vanwege de inherente
aard van bewerkingstechnieken, waarbij bepaalde inhoud van het originele beeld
behouden moet blijven. Daarentegen resulteren in tekstgebaseerde modellen zelfs
kleine wijzigingen aan de tekstprompt vaak in een geheel ander resultaat, wat
het bereiken van een one-shot-generatie die nauwkeurig overeenkomt met de
bedoeling van de gebruiker bijzonder uitdagend maakt. Bovendien moet men, om een
echt beeld te bewerken met deze state-of-the-art tools, eerst het beeld
inverteren naar het domein van het vooraf getrainde model – wat een extra factor
toevoegt die de bewerkingskwaliteit en latentie beïnvloedt. In dit verkennende
rapport stellen we LEDITS voor – een gecombineerde lichtgewicht aanpak voor het
bewerken van echte beelden, waarbij de Edit Friendly DDPM-inversietechniek wordt
gecombineerd met Semantische Begeleiding, waardoor Semantische Begeleiding
wordt uitgebreid naar het bewerken van echte beelden, terwijl ook de
bewerkingsmogelijkheden van DDPM-inversie worden benut. Deze aanpak bereikt
veelzijdige bewerkingen, zowel subtiel als uitgebreid, evenals wijzigingen in
compositie en stijl, zonder dat er optimalisatie of uitbreidingen van de
architectuur nodig zijn.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.