ChatPaper.aiChatPaper

Ongecontroleerde semantische correspondentie met behulp van stabiele diffusie

Unsupervised Semantic Correspondence Using Stable Diffusion

May 24, 2023
Auteurs: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
cs.AI

Samenvatting

Text-to-image diffusiemodellen zijn nu in staat om afbeeldingen te genereren die vaak niet te onderscheiden zijn van echte afbeeldingen. Om dergelijke afbeeldingen te genereren, moeten deze modellen de semantiek begrijpen van de objecten die ze moeten genereren. In dit werk tonen we aan dat men, zonder enige training, deze semantische kennis binnen diffusiemodellen kan benutten om semantische correspondenties te vinden — locaties in meerdere afbeeldingen die dezelfde semantische betekenis hebben. Specifiek optimaliseren we, gegeven een afbeelding, de prompt-embeddings van deze modellen voor maximale aandacht op de regio's van belang. Deze geoptimaliseerde embeddings vangen semantische informatie over de locatie op, die vervolgens kan worden overgedragen naar een andere afbeelding. Hiermee behalen we resultaten die vergelijkbaar zijn met de sterk gesuperviseerde state-of-the-art op de PF-Willow dataset en die aanzienlijk beter presteren (20,9% relatief voor de SPair-71k dataset) dan bestaande zwak of ongesuperviseerde methoden op de PF-Willow, CUB-200 en SPair-71k datasets.
English
Text-to-image diffusion models are now capable of generating images that are often indistinguishable from real images. To generate such images, these models must understand the semantics of the objects they are asked to generate. In this work we show that, without any training, one can leverage this semantic knowledge within diffusion models to find semantic correspondences -- locations in multiple images that have the same semantic meaning. Specifically, given an image, we optimize the prompt embeddings of these models for maximum attention on the regions of interest. These optimized embeddings capture semantic information about the location, which can then be transferred to another image. By doing so we obtain results on par with the strongly supervised state of the art on the PF-Willow dataset and significantly outperform (20.9% relative for the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow, CUB-200 and SPair-71k datasets.
PDF20December 15, 2024