LEDITS: Edición de imágenes reales con inversión DDPM y guía semántica
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Autores: Linoy Tsaban, Apolinário Passos
cs.AI
Resumen
Los recientes modelos de difusión a gran escala guiados por texto ofrecen capacidades potentes de generación de imágenes. Actualmente, se dedica un esfuerzo significativo a permitir la modificación de estas imágenes utilizando únicamente texto como medio para ofrecer una edición intuitiva y versátil. Sin embargo, la edición resulta difícil para estos modelos generativos debido a la naturaleza inherente de las técnicas de edición, que implican preservar cierto contenido de la imagen original. Por el contrario, en los modelos basados en texto, incluso modificaciones menores al prompt de texto frecuentemente resultan en un resultado completamente distinto, lo que hace extremadamente desafiante lograr una generación en un solo intento que corresponda con precisión a la intención del usuario. Además, para editar una imagen real utilizando estas herramientas de vanguardia, primero es necesario invertir la imagen en el dominio del modelo preentrenado, lo que añade otro factor que afecta la calidad de la edición, así como la latencia. En este informe exploratorio, proponemos LEDITS, un enfoque ligero combinado para la edición de imágenes reales, que incorpora la técnica de inversión Edit Friendly DDPM con Guía Semántica, extendiendo así la Guía Semántica a la edición de imágenes reales, mientras aprovecha las capacidades de edición de la inversión DDPM. Este enfoque logra ediciones versátiles, tanto sutiles como extensas, así como alteraciones en la composición y el estilo, sin requerir optimización ni extensiones a la arquitectura.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.