LEDITS : Édition d'images réelles avec inversion DDPM et guidage sémantique

Résumé

Les récents modèles de diffusion guidés par texte à grande échelle offrent des capacités puissantes de génération d'images. Actuellement, un effort significatif est consacré à permettre la modification de ces images en utilisant uniquement le texte comme moyen d'offrir un éditing intuitif et polyvalent. Cependant, l'édition s'avère difficile pour ces modèles génératifs en raison de la nature inhérente des techniques d'édition, qui impliquent de préserver certains contenus de l'image originale. À l'inverse, dans les modèles basés sur le texte, même des modifications mineures de l'invite textuelle entraînent fréquemment un résultat entièrement distinct, rendant extrêmement difficile l'obtention d'une génération en une seule étape qui corresponde précisément à l'intention de l'utilisateur. De plus, pour éditer une image réelle à l'aide de ces outils de pointe, il faut d'abord inverser l'image dans le domaine du modèle pré-entraîné - ajoutant ainsi un autre facteur affectant la qualité de l'édition, ainsi que la latence. Dans ce rapport exploratoire, nous proposons LEDITS - une approche légère combinée pour l'édition d'images réelles, intégrant la technique d'inversion DDPM Edit Friendly avec le guidage sémantique, étendant ainsi le guidage sémantique à l'édition d'images réelles, tout en exploitant les capacités d'édition de l'inversion DDPM. Cette approche permet des modifications polyvalentes, à la fois subtiles et étendues, ainsi que des altérations de composition et de style, sans nécessiter d'optimisation ni d'extensions à l'architecture.

English

Recent large-scale text-guided diffusion models provide powerful image-generation capabilities. Currently, a significant effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. However, editing proves to be difficult for these generative models due to the inherent nature of editing techniques, which involves preserving certain content from the original image. Conversely, in text-based models, even minor modifications to the text prompt frequently result in an entirely distinct result, making attaining one-shot generation that accurately corresponds to the users intent exceedingly challenging. In addition, to edit a real image using these state-of-the-art tools, one must first invert the image into the pre-trained models domain - adding another factor affecting the edit quality, as well as latency. In this exploratory report, we propose LEDITS - a combined lightweight approach for real-image editing, incorporating the Edit Friendly DDPM inversion technique with Semantic Guidance, thus extending Semantic Guidance to real image editing, while harnessing the editing capabilities of DDPM inversion as well. This approach achieves versatile edits, both subtle and extensive as well as alterations in composition and style, while requiring no optimization nor extensions to the architecture.

LEDITS : Édition d'images réelles avec inversion DDPM et guidage sémantique

LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance

Résumé

Support