ChatPaper.aiChatPaper

LIME: Edição Localizada de Imagens via Regularização de Atenção em Modelos de Difusão

LIME: Localized Image Editing via Attention Regularization in Diffusion Models

December 14, 2023
Autores: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Resumo

Modelos de difusão (DMs) têm ganhado destaque devido à sua capacidade de gerar imagens de alta qualidade e variadas, com avanços recentes na geração de imagens a partir de texto. O foco da pesquisa está agora se voltando para a controlabilidade dos DMs. Um desafio significativo nesse domínio é a edição localizada, onde áreas específicas de uma imagem são modificadas sem afetar o restante do conteúdo. Este artigo apresenta o LIME para edição localizada de imagens em modelos de difusão que não exigem regiões de interesse (RoI) especificadas pelo usuário ou entradas de texto adicionais. Nosso método emprega características de métodos pré-treinados e uma técnica simples de agrupamento para obter mapas de segmentação semântica precisos. Em seguida, ao aproveitar mapas de atenção cruzada, ele refina esses segmentos para edições localizadas. Por fim, propomos uma nova técnica de regularização de atenção cruzada que penaliza pontuações de atenção cruzada não relacionadas na RoI durante as etapas de redução de ruído, garantindo edições localizadas. Nossa abordagem, sem retreinamento ou ajuste fino, melhora consistentemente o desempenho de métodos existentes em diversos benchmarks de edição.
English
Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.
PDF124December 15, 2024