Независимое семантическое соответствие с использованием Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion
May 24, 2023
Авторы: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI
Аннотация
Модели диффузии для генерации изображений из текста теперь способны создавать изображения, которые зачастую неотличимы от реальных. Для генерации таких изображений эти модели должны понимать семантику объектов, которые их просят создать. В данной работе мы показываем, что без какого-либо обучения можно использовать это семантическое знание, заложенное в моделях диффузии, для поиска семантических соответствий — областей на нескольких изображениях, которые имеют одинаковое семантическое значение. А именно, для заданного изображения мы оптимизируем встраивания (эмбеддинги) текстовых запросов этих моделей для максимизации внимания на интересующих областях. Эти оптимизированные встраивания захватывают семантическую информацию о местоположении, которую затем можно перенести на другое изображение. Таким образом, мы получаем результаты, сопоставимые с сильно контролируемыми методами, являющимися современным уровнем техники на наборе данных PF-Willow, и значительно превосходим (на 20,9% относительно для набора данных SPair-71k) любые существующие слабо контролируемые или неконтролируемые методы на наборах данных PF-Willow, CUB-200 и SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are
often indistinguishable from real images. To generate such images, these models
must understand the semantics of the objects they are asked to generate. In
this work we show that, without any training, one can leverage this semantic
knowledge within diffusion models to find semantic correspondences -- locations
in multiple images that have the same semantic meaning. Specifically, given an
image, we optimize the prompt embeddings of these models for maximum attention
on the regions of interest. These optimized embeddings capture semantic
information about the location, which can then be transferred to another image.
By doing so we obtain results on par with the strongly supervised state of the
art on the PF-Willow dataset and significantly outperform (20.9% relative for
the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow,
CUB-200 and SPair-71k datasets.