ChatPaper.aiChatPaper

MAG-Edit: Gelokaliseerde beeldbewerking in complexe scenario's via masker-gebaseerde aandacht-aangepaste begeleiding

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

December 18, 2023
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI

Samenvatting

Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben indrukwekkende bewerkingsmogelijkheden getoond in afbeeldingen met eenvoudige composities. Echter, gelokaliseerde bewerking in complexe scenario's is nog niet goed bestudeerd in de literatuur, ondanks de groeiende vraag in de praktijk. Bestaande masker-gebaseerde inpainting-methoden schieten tekort in het behouden van de onderliggende structuur binnen het bewerkingsgebied. Tegelijkertijd vertonen maskervrije, op aandacht gebaseerde methoden vaak bewerkingslekkage en uitlijningproblemen in complexere composities. In dit werk ontwikkelen we MAG-Edit, een trainingsvrije, optimalisatiemethode tijdens de inferentiefase, die gelokaliseerde beeldbewerking in complexe scenario's mogelijk maakt. In het bijzonder optimaliseert MAG-Edit de ruis-latente feature in diffusiemodellen door het maximaliseren van twee masker-gebaseerde cross-attention-beperkingen van het bewerkingstoken, wat op zijn beurt geleidelijk de lokale uitlijning met de gewenste prompt verbetert. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen de effectiviteit van onze methode aan in het bereiken van zowel tekstuitlijning als structuurbehoud voor gelokaliseerde bewerking binnen complexe scenario's.
English
Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop MAG-Edit, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.
PDF111February 11, 2026