MAG-Edit: Gelokaliseerde beeldbewerking in complexe scenario's via masker-gebaseerde aandacht-aangepaste begeleiding
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Samenvatting
Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben indrukwekkende
bewerkingsmogelijkheden getoond in afbeeldingen met eenvoudige composities. Echter,
gelokaliseerde bewerking in complexe scenario's is nog niet goed bestudeerd in de literatuur,
ondanks de groeiende vraag in de praktijk. Bestaande masker-gebaseerde inpainting-methoden
schieten tekort in het behouden van de onderliggende structuur binnen het bewerkingsgebied.
Tegelijkertijd vertonen maskervrije, op aandacht gebaseerde methoden vaak bewerkingslekkage en
uitlijningproblemen in complexere composities. In dit werk ontwikkelen we
MAG-Edit, een trainingsvrije, optimalisatiemethode tijdens de inferentiefase,
die gelokaliseerde beeldbewerking in complexe scenario's mogelijk maakt. In het bijzonder
optimaliseert MAG-Edit de ruis-latente feature in diffusiemodellen door het maximaliseren
van twee masker-gebaseerde cross-attention-beperkingen van het bewerkingstoken, wat op zijn beurt
geleidelijk de lokale uitlijning met de gewenste prompt verbetert. Uitgebreide
kwantitatieve en kwalitatieve experimenten tonen de effectiviteit van onze
methode aan in het bereiken van zowel tekstuitlijning als structuurbehoud voor
gelokaliseerde bewerking binnen complexe scenario's.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.