DragonDiffusion: Реализация манипуляций в стиле перетаскивания для моделей диффузии
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
Авторы: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Аннотация
Несмотря на способность существующих крупномасштабных моделей преобразования текста в изображение (T2I) генерировать высококачественные изображения на основе детальных текстовых описаний, они часто не способны точно редактировать сгенерированные или реальные изображения. В данной статье мы предлагаем новый метод редактирования изображений, DragonDiffusion, который позволяет осуществлять манипуляции в стиле Drag на моделях диффузии. В частности, мы создаем классификаторное управление, основанное на сильной корреляции промежуточных признаков в модели диффузии. Это позволяет преобразовывать сигналы редактирования в градиенты с помощью функции потерь на основе корреляции признаков, чтобы изменять промежуточное представление модели диффузии. На основе этой стратегии управления мы также разрабатываем многоуровневое управление, учитывающее как семантическое, так и геометрическое выравнивание. Кроме того, добавляется кросс-веточный механизм самовнимания для поддержания согласованности между исходным изображением и результатом редактирования. Наш метод, благодаря эффективной конструкции, позволяет реализовать различные режимы редактирования для сгенерированных или реальных изображений, такие как перемещение объектов, изменение их размеров, замена внешнего вида объектов и перетаскивание содержимого. Важно отметить, что все сигналы редактирования и сохранения содержимого исходят из самого изображения, и модель не требует тонкой настройки или дополнительных модулей. Наш исходный код будет доступен по адресу https://github.com/MC-E/DragonDiffusion.
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.