ChatPaper.aiChatPaper

Независимое семантическое соответствие с использованием Stable Diffusion

Unsupervised Semantic Correspondence Using Stable Diffusion

May 24, 2023
Авторы: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста теперь способны создавать изображения, которые зачастую неотличимы от реальных. Для генерации таких изображений эти модели должны понимать семантику объектов, которые их просят создать. В данной работе мы показываем, что без какого-либо обучения можно использовать это семантическое знание, заложенное в моделях диффузии, для поиска семантических соответствий — областей на нескольких изображениях, которые имеют одинаковое семантическое значение. А именно, для заданного изображения мы оптимизируем встраивания (эмбеддинги) текстовых запросов этих моделей для максимизации внимания на интересующих областях. Эти оптимизированные встраивания захватывают семантическую информацию о местоположении, которую затем можно перенести на другое изображение. Таким образом, мы получаем результаты, сопоставимые с сильно контролируемыми методами, являющимися современным уровнем техники на наборе данных PF-Willow, и значительно превосходим (на 20,9% относительно для набора данных SPair-71k) любые существующие слабо контролируемые или неконтролируемые методы на наборах данных PF-Willow, CUB-200 и SPair-71k.
English
Text-to-image diffusion models are now capable of generating images that are often indistinguishable from real images. To generate such images, these models must understand the semantics of the objects they are asked to generate. In this work we show that, without any training, one can leverage this semantic knowledge within diffusion models to find semantic correspondences -- locations in multiple images that have the same semantic meaning. Specifically, given an image, we optimize the prompt embeddings of these models for maximum attention on the regions of interest. These optimized embeddings capture semantic information about the location, which can then be transferred to another image. By doing so we obtain results on par with the strongly supervised state of the art on the PF-Willow dataset and significantly outperform (20.9% relative for the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow, CUB-200 and SPair-71k datasets.
PDF20December 15, 2024