Correspondance émergente à partir de la diffusion d'images
Emergent Correspondence from Image Diffusion
June 6, 2023
Auteurs: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Résumé
La recherche de correspondances entre images constitue un problème fondamental en vision par ordinateur. Dans cet article, nous démontrons que ces correspondances émergent dans les modèles de diffusion d'images sans aucune supervision explicite. Nous proposons une stratégie simple pour extraire cette connaissance implicite des réseaux de diffusion sous forme de caractéristiques d'images, appelées DIffusion FeaTures (DIFT), et les utilisons pour établir des correspondances entre des images réelles. Sans aucun ajustement fin ou supervision supplémentaire sur des données ou annotations spécifiques à la tâche, DIFT parvient à surpasser à la fois les méthodes faiblement supervisées et les caractéristiques prêtes à l'emploi concurrentes dans l'identification de correspondances sémantiques, géométriques et temporelles. En particulier pour les correspondances sémantiques, DIFT issu de Stable Diffusion surpasse DINO et OpenCLIP de respectivement 19 et 14 points de précision sur le benchmark exigeant SPair-71k. Il dépasse même les méthodes supervisées de pointe dans 9 des 18 catégories tout en restant à égalité pour la performance globale. Page du projet : https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io