Correspondencia Semántica No Supervisada Utilizando Difusión Estable
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Autores: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Resumen
Los modelos de difusión de texto a imagen son ahora capaces de generar imágenes que a menudo son indistinguibles de las imágenes reales. Para generar tales imágenes, estos modelos deben comprender la semántica de los objetos que se les pide generar. En este trabajo demostramos que, sin ningún entrenamiento, se puede aprovechar este conocimiento semántico dentro de los modelos de difusión para encontrar correspondencias semánticas: ubicaciones en múltiples imágenes que tienen el mismo significado semántico. Específicamente, dada una imagen, optimizamos los embeddings de los prompts de estos modelos para maximizar la atención en las regiones de interés. Estos embeddings optimizados capturan información semántica sobre la ubicación, que luego puede transferirse a otra imagen. Al hacerlo, obtenemos resultados comparables con el estado del arte fuertemente supervisado en el conjunto de datos PF-Willow y superamos significativamente (20.9% relativo para el conjunto de datos SPair-71k) cualquier método débilmente supervisado o no supervisado existente en los conjuntos de datos PF-Willow, CUB-200 y SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.