LEDITS: Редактирование реальных изображений с использованием инверсии DDPM и семантического управления

Аннотация

Недавние крупномасштабные диффузионные модели, управляемые текстом, предоставляют мощные возможности для генерации изображений. В настоящее время значительные усилия направлены на обеспечение модификации этих изображений с использованием только текста, что позволяет предложить интуитивное и универсальное редактирование. Однако редактирование оказывается сложной задачей для этих генеративных моделей из-за природы техник редактирования, которые предполагают сохранение определенного содержания из исходного изображения. В то же время, в текстовых моделях даже незначительные изменения в текстовом запросе часто приводят к совершенно иному результату, что делает достижение однократной генерации, точно соответствующей намерениям пользователя, чрезвычайно сложной задачей. Кроме того, для редактирования реального изображения с использованием этих современных инструментов необходимо сначала инвертировать изображение в область предварительно обученной модели, что добавляет еще один фактор, влияющий на качество редактирования, а также на задержку. В этом исследовательском отчете мы предлагаем LEDITS — комбинированный легковесный подход для редактирования реальных изображений, который объединяет технику инверсии Edit Friendly DDPM с семантическим управлением, тем самым расширяя возможности семантического управления для редактирования реальных изображений, одновременно используя возможности редактирования инверсии DDPM. Этот подход позволяет выполнять универсальные правки, как незначительные, так и масштабные, а также изменения в композиции и стиле, не требуя оптимизации или расширения архитектуры.

English

Recent large-scale text-guided diffusion models provide powerful image-generation capabilities. Currently, a significant effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. However, editing proves to be difficult for these generative models due to the inherent nature of editing techniques, which involves preserving certain content from the original image. Conversely, in text-based models, even minor modifications to the text prompt frequently result in an entirely distinct result, making attaining one-shot generation that accurately corresponds to the users intent exceedingly challenging. In addition, to edit a real image using these state-of-the-art tools, one must first invert the image into the pre-trained models domain - adding another factor affecting the edit quality, as well as latency. In this exploratory report, we propose LEDITS - a combined lightweight approach for real-image editing, incorporating the Edit Friendly DDPM inversion technique with Semantic Guidance, thus extending Semantic Guidance to real image editing, while harnessing the editing capabilities of DDPM inversion as well. This approach achieves versatile edits, both subtle and extensive as well as alterations in composition and style, while requiring no optimization nor extensions to the architecture.

LEDITS: Редактирование реальных изображений с использованием инверсии DDPM и семантического управления

LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance

Аннотация

Support