Correspondance sémantique non supervisée avec diffusion stable
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Auteurs: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Résumé
Les modèles de diffusion texte-image sont désormais capables de générer des images souvent indiscernables des images réelles. Pour générer de telles images, ces modèles doivent comprendre la sémantique des objets qu'ils sont chargés de créer. Dans ce travail, nous montrons que, sans aucun entraînement supplémentaire, il est possible d'exploiter cette connaissance sémantique au sein des modèles de diffusion pour identifier des correspondances sémantiques — des emplacements dans plusieurs images qui partagent la même signification sémantique. Plus précisément, étant donné une image, nous optimisons les embeddings de prompt de ces modèles pour maximiser l'attention sur les régions d'intérêt. Ces embeddings optimisés capturent des informations sémantiques sur l'emplacement, qui peuvent ensuite être transférées à une autre image. Grâce à cette approche, nous obtenons des résultats comparables à l'état de l'art fortement supervisé sur le jeu de données PF-Willow et surpassons significativement (20,9 % en termes relatifs pour le jeu de données SPair-71k) toute méthode faiblement supervisée ou non supervisée existante sur les jeux de données PF-Willow, CUB-200 et SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.