Corrispondenza Semantica Non Supervisionata Utilizzando Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Autori: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Abstract
I modelli di diffusione text-to-image sono ora in grado di generare immagini che spesso sono indistinguibili da quelle reali. Per generare tali immagini, questi modelli devono comprendere la semantica degli oggetti che vengono loro richiesti di creare. In questo lavoro dimostriamo che, senza alcun addestramento, è possibile sfruttare questa conoscenza semantica all'interno dei modelli di diffusione per trovare corrispondenze semantiche, ovvero posizioni in più immagini che hanno lo stesso significato semantico. Nello specifico, data un'immagine, ottimizziamo gli embedding dei prompt di questi modelli per massimizzare l'attenzione sulle regioni di interesse. Questi embedding ottimizzati catturano informazioni semantiche sulla posizione, che possono poi essere trasferite a un'altra immagine. In questo modo otteniamo risultati alla pari con lo stato dell'arte fortemente supervisionato sul dataset PF-Willow e superiamo significativamente (20,9% in termini relativi per il dataset SPair-71k) qualsiasi metodo esistente debolmente o non supervisionato su PF-Willow, CUB-200 e SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.