LEDITS: Редактирование реальных изображений с использованием инверсии DDPM и семантического управления
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance
July 2, 2023
Авторы: Linoy Tsaban, Apolinário Passos
cs.AI
Аннотация
Недавние крупномасштабные диффузионные модели, управляемые текстом, предоставляют мощные возможности для генерации изображений. В настоящее время значительные усилия направлены на обеспечение модификации этих изображений с использованием только текста, что позволяет предложить интуитивное и универсальное редактирование. Однако редактирование оказывается сложной задачей для этих генеративных моделей из-за природы техник редактирования, которые предполагают сохранение определенного содержания из исходного изображения. В то же время, в текстовых моделях даже незначительные изменения в текстовом запросе часто приводят к совершенно иному результату, что делает достижение однократной генерации, точно соответствующей намерениям пользователя, чрезвычайно сложной задачей. Кроме того, для редактирования реального изображения с использованием этих современных инструментов необходимо сначала инвертировать изображение в область предварительно обученной модели, что добавляет еще один фактор, влияющий на качество редактирования, а также на задержку. В этом исследовательском отчете мы предлагаем LEDITS — комбинированный легковесный подход для редактирования реальных изображений, который объединяет технику инверсии Edit Friendly DDPM с семантическим управлением, тем самым расширяя возможности семантического управления для редактирования реальных изображений, одновременно используя возможности редактирования инверсии DDPM. Этот подход позволяет выполнять универсальные правки, как незначительные, так и масштабные, а также изменения в композиции и стиле, не требуя оптимизации или расширения архитектуры.
English
Recent large-scale text-guided diffusion models provide powerful
image-generation capabilities. Currently, a significant effort is given to
enable the modification of these images using text only as means to offer
intuitive and versatile editing. However, editing proves to be difficult for
these generative models due to the inherent nature of editing techniques, which
involves preserving certain content from the original image. Conversely, in
text-based models, even minor modifications to the text prompt frequently
result in an entirely distinct result, making attaining one-shot generation
that accurately corresponds to the users intent exceedingly challenging. In
addition, to edit a real image using these state-of-the-art tools, one must
first invert the image into the pre-trained models domain - adding another
factor affecting the edit quality, as well as latency. In this exploratory
report, we propose LEDITS - a combined lightweight approach for real-image
editing, incorporating the Edit Friendly DDPM inversion technique with Semantic
Guidance, thus extending Semantic Guidance to real image editing, while
harnessing the editing capabilities of DDPM inversion as well. This approach
achieves versatile edits, both subtle and extensive as well as alterations in
composition and style, while requiring no optimization nor extensions to the
architecture.