LEDITS : Édition d'images réelles avec inversion DDPM et guidage sémantique
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Auteurs: Linoy Tsaban, Apolinário Passos
cs.AI
Résumé
Les récents modèles de diffusion guidés par texte à grande échelle offrent des capacités puissantes de génération d'images. Actuellement, un effort significatif est consacré à permettre la modification de ces images en utilisant uniquement le texte comme moyen d'offrir un éditing intuitif et polyvalent. Cependant, l'édition s'avère difficile pour ces modèles génératifs en raison de la nature inhérente des techniques d'édition, qui impliquent de préserver certains contenus de l'image originale. À l'inverse, dans les modèles basés sur le texte, même des modifications mineures de l'invite textuelle entraînent fréquemment un résultat entièrement distinct, rendant extrêmement difficile l'obtention d'une génération en une seule étape qui corresponde précisément à l'intention de l'utilisateur. De plus, pour éditer une image réelle à l'aide de ces outils de pointe, il faut d'abord inverser l'image dans le domaine du modèle pré-entraîné - ajoutant ainsi un autre facteur affectant la qualité de l'édition, ainsi que la latence. Dans ce rapport exploratoire, nous proposons LEDITS - une approche légère combinée pour l'édition d'images réelles, intégrant la technique d'inversion DDPM Edit Friendly avec le guidage sémantique, étendant ainsi le guidage sémantique à l'édition d'images réelles, tout en exploitant les capacités d'édition de l'inversion DDPM. Cette approche permet des modifications polyvalentes, à la fois subtiles et étendues, ainsi que des altérations de composition et de style, sans nécessiter d'optimisation ni d'extensions à l'architecture.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.