DiffEditor: Повышение точности и гибкости в редактировании изображений на основе диффузии
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
Авторы: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
Аннотация
Крупномасштабные модели генерации изображений на основе текста (Text-to-Image, T2I) с использованием диффузии произвели революцию в области создания изображений за последние несколько лет. Несмотря на их разнообразные и высококачественные возможности генерации, применение этих способностей для точного редактирования изображений остается сложной задачей. В данной статье мы предлагаем метод DiffEditor, который устраняет два недостатка существующих подходов к редактированию изображений на основе диффузии: (1) в сложных сценариях результаты редактирования часто страдают от недостаточной точности и содержат нежелательные артефакты; (2) отсутствие гибкости в согласовании операций редактирования, например, при добавлении нового контента. В нашем решении мы вводим использование изображений в качестве подсказок для точного редактирования, что в сочетании с текстовыми подсказками позволяет лучше описывать редактируемый контент. Для повышения гибкости при сохранении согласованности контента мы локально интегрируем стохастические дифференциальные уравнения (SDE) в процесс выборки на основе обыкновенных дифференциальных уравнений (ODE). Кроме того, мы включаем региональное градиентное управление на основе оценок и стратегию "путешествия во времени" в процесс диффузионной выборки, что дополнительно улучшает качество редактирования. Многочисленные эксперименты демонстрируют, что наш метод эффективно достигает наилучших результатов в различных задачах точного редактирования изображений, включая редактирование внутри одного изображения (например, перемещение объектов, изменение размеров и перетаскивание контента) и между изображениями (например, замена внешнего вида и вставка объектов). Наш исходный код доступен по адресу https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.