Unüberwachte semantische Korrespondenz mit Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Autoren: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle sind mittlerweile in der Lage, Bilder zu erzeugen, die oft nicht von echten Bildern zu unterscheiden sind. Um solche Bilder zu generieren, müssen diese Modelle die Semantik der Objekte verstehen, die sie erzeugen sollen. In dieser Arbeit zeigen wir, dass man ohne jegliches Training dieses semantische Wissen innerhalb von Diffusionsmodellen nutzen kann, um semantische Korrespondenzen zu finden – also Stellen in mehreren Bildern, die dieselbe semantische Bedeutung haben. Konkret optimieren wir für ein gegebenes Bild die Prompt-Embeddings dieser Modelle, um die Aufmerksamkeit auf die interessierenden Regionen zu maximieren. Diese optimierten Embeddings erfassen semantische Informationen über die Position, die dann auf ein anderes Bild übertragen werden können. Auf diese Weise erzielen wir Ergebnisse, die mit dem stark überwachten State-of-the-Art auf dem PF-Willow-Datensatz vergleichbar sind, und übertreffen signifikant (20,9 % relativ für den SPair-71k-Datensatz) alle bestehenden schwach oder unüberwachten Methoden auf den Datensätzen PF-Willow, CUB-200 und SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.