LIME : Édition d'image localisée via régularisation de l'attention dans les modèles de diffusion
LIME: Localized Image Editing via Attention Regularization in Diffusion Models
December 14, 2023
Auteurs: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Résumé
Les modèles de diffusion (DMs) ont gagné en importance grâce à leur capacité à générer des images de haute qualité et variées, avec des avancées récentes dans la génération d'images à partir de texte. L'attention de la recherche se porte désormais sur la contrôlabilité des DMs. Un défi majeur dans ce domaine est l'édition localisée, où des zones spécifiques d'une image sont modifiées sans affecter le reste du contenu. Cet article présente LIME pour l'édition localisée d'images dans les modèles de diffusion, sans nécessiter de régions d'intérêt (RoI) spécifiées par l'utilisateur ou d'entrées textuelles supplémentaires. Notre méthode utilise des caractéristiques issues de méthodes pré-entraînées et une technique de clustering simple pour obtenir des cartes de segmentation sémantique précises. Ensuite, en exploitant les cartes d'attention croisée, elle affine ces segments pour des modifications localisées. Enfin, nous proposons une nouvelle technique de régularisation de l'attention croisée qui pénalise les scores d'attention croisée non pertinents dans la RoI lors des étapes de débruitage, garantissant ainsi des modifications localisées. Notre approche, sans ré-entraînement ni ajustement fin, améliore de manière constante les performances des méthodes existantes dans divers benchmarks d'édition.
English
Diffusion models (DMs) have gained prominence due to their ability to
generate high-quality, varied images, with recent advancements in text-to-image
generation. The research focus is now shifting towards the controllability of
DMs. A significant challenge within this domain is localized editing, where
specific areas of an image are modified without affecting the rest of the
content. This paper introduces LIME for localized image editing in diffusion
models that do not require user-specified regions of interest (RoI) or
additional text input. Our method employs features from pre-trained methods and
a simple clustering technique to obtain precise semantic segmentation maps.
Then, by leveraging cross-attention maps, it refines these segments for
localized edits. Finally, we propose a novel cross-attention regularization
technique that penalizes unrelated cross-attention scores in the RoI during the
denoising steps, ensuring localized edits. Our approach, without re-training
and fine-tuning, consistently improves the performance of existing methods in
various editing benchmarks.