ChatPaper.aiChatPaper

LIME: Modifica Localizzata delle Immagini tramite Regolarizzazione dell'Attenzione nei Modelli di Diffusione

LIME: Localized Image Editing via Attention Regularization in Diffusion Models

December 14, 2023
Autori: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Abstract

I modelli di diffusione (DMs) hanno guadagnato importanza grazie alla loro capacità di generare immagini di alta qualità e variate, con recenti progressi nella generazione di immagini da testo. L'attenzione della ricerca si sta ora spostando verso la controllabilità dei DMs. Una sfida significativa in questo ambito è l'editing localizzato, dove aree specifiche di un'immagine vengono modificate senza influenzare il resto del contenuto. Questo articolo introduce LIME per l'editing localizzato di immagini nei modelli di diffusione che non richiedono regioni di interesse (RoI) specificate dall'utente o ulteriori input testuali. Il nostro metodo utilizza caratteristiche da metodi pre-addestrati e una semplice tecnica di clustering per ottenere mappe di segmentazione semantica precise. Quindi, sfruttando le mappe di cross-attention, affina questi segmenti per effettuare modifiche localizzate. Infine, proponiamo una nuova tecnica di regolarizzazione della cross-attention che penalizza i punteggi di cross-attention non correlati nella RoI durante i passaggi di denoising, garantendo modifiche localizzate. Il nostro approccio, senza ri-addestramento e fine-tuning, migliora costantemente le prestazioni dei metodi esistenti in vari benchmark di editing.
English
Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.
PDF104March 8, 2026