MAG-Edit: Локализованное редактирование изображений в сложных сценариях с использованием маскированного внимания и регулируемого управления
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Авторы: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Аннотация
Недавние подходы к редактированию изображений на основе диффузии продемонстрировали впечатляющие возможности редактирования изображений с простой композицией. Однако локализованное редактирование в сложных сценах до сих пор недостаточно изучено в литературе, несмотря на растущие практические потребности. Существующие методы восстановления на основе масок не способны сохранить базовую структуру в области редактирования. В то же время методы, основанные на внимании без использования масок, часто демонстрируют утечку редактирования и смещение в более сложных композициях. В данной работе мы разрабатываем MAG-Edit — метод оптимизации на этапе вывода, не требующий обучения, который позволяет выполнять локализованное редактирование изображений в сложных сценах. В частности, MAG-Edit оптимизирует скрытые шумовые характеристики в моделях диффузии, максимизируя два ограничения на перекрестное внимание, основанные на маске для токена редактирования, что, в свою очередь, постепенно улучшает локальное соответствие желаемому текстовому запросу. Многочисленные количественные и качественные эксперименты демонстрируют эффективность нашего метода в достижении как текстового соответствия, так и сохранения структуры при локализованном редактировании в сложных сценах.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.