MAG-Edit: Modifica Localizzata delle Immagini in Scenari Complessi tramite Guida Regolata su Maschere e Attenzione
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Autori: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Abstract
I recenti approcci di editing basati su modelli di diffusione hanno dimostrato capacità impressionanti nel modificare immagini con composizioni semplici. Tuttavia, l'editing localizzato in scenari complessi non è stato ampiamente studiato in letteratura, nonostante la crescente domanda nel mondo reale. I metodi esistenti di inpainting basati su maschere non riescono a preservare la struttura sottostante all'interno della regione da modificare. Nel frattempo, i metodi basati sull'attenzione senza maschera spesso mostrano perdite di editing e disallineamenti in composizioni più complesse. In questo lavoro, sviluppiamo MAG-Edit, un metodo di ottimizzazione in fase di inferenza che non richiede addestramento, che consente l'editing localizzato di immagini in scenari complessi. In particolare, MAG-Edit ottimizza la caratteristica latente del rumore nei modelli di diffusione massimizzando due vincoli di cross-attention basati su maschera del token di editing, migliorando gradualmente l'allineamento locale con il prompt desiderato. Esperimenti quantitativi e qualitativi estesi dimostrano l'efficacia del nostro metodo nel raggiungere sia l'allineamento testuale che la preservazione della struttura per l'editing localizzato in scenari complessi.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.