SHIC : Correspondances Forme-Image sans Supervision par Points ClésSHIC: Shape-Image Correspondences with no Keypoint Supervision
La cartographie canonique de surface généralise la détection de points clés en assignant à chaque pixel d'un objet un point correspondant dans un modèle 3D. Popularisée par DensePose pour l'analyse des humains, des auteurs ont depuis tenté d'appliquer ce concept à davantage de catégories, mais avec un succès limité en raison du coût élevé de la supervision manuelle. Dans ce travail, nous introduisons SHIC, une méthode pour apprendre des cartes canoniques sans supervision manuelle, qui obtient de meilleurs résultats que les méthodes supervisées pour la plupart des catégories. Notre idée est de tirer parti de modèles de vision par ordinateur de base tels que DINO et Stable Diffusion, qui sont ouverts et possèdent donc d'excellents a priori sur les catégories naturelles. SHIC réduit le problème de l'estimation des correspondances image-modèle à la prédiction de correspondances image-image en utilisant les caractéristiques des modèles de base. Cette réduction fonctionne en faisant correspondre des images de l'objet à des rendus non photoréalistes du modèle, ce qui simule le processus de collecte d'annotations manuelles pour cette tâche. Ces correspondances sont ensuite utilisées pour superviser des cartes canoniques de haute qualité pour tout objet d'intérêt. Nous montrons également que les générateurs d'images peuvent encore améliorer le réalisme des vues du modèle, fournissant ainsi une source supplémentaire de supervision pour le modèle.