Correspondência Semântica Não Supervisionada Usando Difusão Estável
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Autores: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Resumo
Modelos de difusão texto-imagem são agora capazes de gerar imagens que muitas vezes são indistinguíveis de imagens reais. Para gerar tais imagens, esses modelos precisam compreender a semântica dos objetos que são solicitados a gerar. Neste trabalho, mostramos que, sem qualquer treinamento, é possível aproveitar esse conhecimento semântico dentro dos modelos de difusão para encontrar correspondências semânticas — locais em múltiplas imagens que possuem o mesmo significado semântico. Especificamente, dada uma imagem, otimizamos os embeddings de prompt desses modelos para maximizar a atenção nas regiões de interesse. Esses embeddings otimizados capturam informações semânticas sobre a localização, que podem então ser transferidas para outra imagem. Ao fazer isso, obtemos resultados comparáveis ao estado da arte fortemente supervisionado no conjunto de dados PF-Willow e superamos significativamente (20,9% relativo para o conjunto de dados SPair-71k) qualquer método existente fracamente supervisionado ou não supervisionado nos conjuntos de dados PF-Willow, CUB-200 e SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.