Непрерывное редактирование компоновки отдельных изображений с использованием моделей диффузии
Continuous Layout Editing of Single Images with Diffusion Models
June 22, 2023
Авторы: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI
Аннотация
Последние достижения в области крупномасштабных диффузионных моделей для генерации изображений из текста открыли множество возможностей для редактирования изображений. Однако ни один из существующих методов не позволяет изменять компоновку отдельных существующих изображений. Чтобы восполнить этот пробел, мы предлагаем первую структуру для редактирования компоновки одного изображения с сохранением его визуальных свойств, что позволяет осуществлять непрерывное редактирование на одном изображении. Наш подход реализуется с помощью двух ключевых модулей. Во-первых, чтобы сохранить характеристики нескольких объектов в изображении, мы разделяем концепции различных объектов и внедряем их в отдельные текстовые токены с использованием нового метода, называемого маскированной текстовой инверсией. Затем мы предлагаем метод оптимизации, не требующий обучения, для управления компоновкой в предварительно обученной диффузионной модели, что позволяет воссоздавать изображения с изученными концепциями и выравнивать их в соответствии с заданной пользователем компоновкой. Будучи первой структурой для редактирования компоновки существующих изображений, мы демонстрируем, что наш метод эффективен и превосходит другие базовые подходы, адаптированные для выполнения этой задачи. Наш код будет свободно доступен для общественного использования после принятия работы.
English
Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.