LEDITS: Edição de Imagens Reais com Inversão DDPM e Orientação Semântica
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Autores: Linoy Tsaban, Apolinário Passos
cs.AI
Resumo
Modelos recentes de difusão guiada por texto em grande escala oferecem capacidades poderosas de geração de imagens. Atualmente, um esforço significativo está sendo direcionado para permitir a modificação dessas imagens usando apenas texto como meio de oferecer edição intuitiva e versátil. No entanto, a edição se mostra difícil para esses modelos generativos devido à natureza intrínseca das técnicas de edição, que envolvem preservar certos conteúdos da imagem original. Por outro lado, em modelos baseados em texto, até mesmo pequenas modificações no prompt de texto frequentemente resultam em um resultado completamente distinto, tornando extremamente desafiador alcançar uma geração em uma única tentativa que corresponda com precisão à intenção do usuário. Além disso, para editar uma imagem real usando essas ferramentas de ponta, é necessário primeiro inverter a imagem no domínio do modelo pré-treinado - adicionando outro fator que afeta a qualidade da edição, bem como a latência. Neste relatório exploratório, propomos o LEDITS - uma abordagem leve combinada para edição de imagens reais, incorporando a técnica de inversão DDPM amigável à edição com Orientação Semântica, estendendo assim a Orientação Semântica para a edição de imagens reais, ao mesmo tempo em que aproveita as capacidades de edição da inversão DDPM. Essa abordagem alcança edições versáteis, tanto sutis quanto extensas, bem como alterações na composição e no estilo, sem exigir otimização nem extensões à arquitetura.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.