Emergente correspondentie uit beelddiffusie
Emergent Correspondence from Image Diffusion
June 6, 2023
Auteurs: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Samenvatting
Het vinden van overeenkomsten tussen afbeeldingen is een fundamenteel probleem in computervisie. In dit artikel laten we zien dat overeenkomsten ontstaan in beelddiffusiemodellen zonder expliciete begeleiding. We stellen een eenvoudige strategie voor om deze impliciete kennis uit diffusienetwerken te halen als beeldkenmerken, genaamd DIffusion FeaTures (DIFT), en gebruiken deze om overeenkomsten tussen echte afbeeldingen vast te stellen. Zonder aanvullende fine-tuning of begeleiding op taakspecifieke data of annotaties, is DIFT in staat om zowel zwak begeleide methoden als concurrerende kant-en-klare kenmerken te overtreffen in het identificeren van semantische, geometrische en temporele overeenkomsten. Vooral voor semantische overeenkomsten is DIFT van Stable Diffusion in staat om DINO en OpenCLIP te overtreffen met respectievelijk 19 en 14 nauwkeurigheidspunten op de uitdagende SPair-71k benchmark. Het overtreft zelfs de state-of-the-art begeleide methoden in 9 van de 18 categorieën, terwijl het qua algehele prestaties gelijk blijft. Projectpagina: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io