LIME: Локализованное редактирование изображений с помощью регуляризации внимания в диффузионных моделях
LIME: Localized Image Editing via Attention Regularization in Diffusion Models
December 14, 2023
Авторы: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Аннотация
Диффузионные модели (DMs) приобрели значительную популярность благодаря своей способности генерировать высококачественные и разнообразные изображения, особенно с учетом последних достижений в области генерации изображений на основе текста. В настоящее время исследовательский фокус смещается в сторону управляемости DMs. Одной из ключевых задач в этой области является локализованное редактирование, при котором изменяются определенные области изображения без воздействия на остальное содержимое. В данной статье представлен метод LIME для локализованного редактирования изображений в диффузионных моделях, который не требует указания пользователем областей интереса (RoI) или дополнительного текстового ввода. Наш метод использует признаки, полученные с помощью предобученных методов, и простую технику кластеризации для создания точных семантических карт сегментации. Затем, используя карты кросс-внимания, метод уточняет эти сегменты для локализованного редактирования. Наконец, мы предлагаем новую технику регуляризации кросс-внимания, которая штрафует несвязанные оценки кросс-внимания в области интереса на этапах удаления шума, обеспечивая локализованные изменения. Наш подход, не требующий повторного обучения и тонкой настройки, последовательно улучшает производительность существующих методов в различных тестах на редактирование.
English
Diffusion models (DMs) have gained prominence due to their ability to
generate high-quality, varied images, with recent advancements in text-to-image
generation. The research focus is now shifting towards the controllability of
DMs. A significant challenge within this domain is localized editing, where
specific areas of an image are modified without affecting the rest of the
content. This paper introduces LIME for localized image editing in diffusion
models that do not require user-specified regions of interest (RoI) or
additional text input. Our method employs features from pre-trained methods and
a simple clustering technique to obtain precise semantic segmentation maps.
Then, by leveraging cross-attention maps, it refines these segments for
localized edits. Finally, we propose a novel cross-attention regularization
technique that penalizes unrelated cross-attention scores in the RoI during the
denoising steps, ensuring localized edits. Our approach, without re-training
and fine-tuning, consistently improves the performance of existing methods in
various editing benchmarks.