SHIC : Correspondances Forme-Image sans Supervision par Points Clés
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Auteurs: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Résumé
La cartographie canonique de surface généralise la détection de points clés en assignant à chaque pixel d'un objet un point correspondant dans un modèle 3D. Popularisée par DensePose pour l'analyse des humains, des auteurs ont depuis tenté d'appliquer ce concept à davantage de catégories, mais avec un succès limité en raison du coût élevé de la supervision manuelle. Dans ce travail, nous introduisons SHIC, une méthode pour apprendre des cartes canoniques sans supervision manuelle, qui obtient de meilleurs résultats que les méthodes supervisées pour la plupart des catégories. Notre idée est de tirer parti de modèles de vision par ordinateur de base tels que DINO et Stable Diffusion, qui sont ouverts et possèdent donc d'excellents a priori sur les catégories naturelles. SHIC réduit le problème de l'estimation des correspondances image-modèle à la prédiction de correspondances image-image en utilisant les caractéristiques des modèles de base. Cette réduction fonctionne en faisant correspondre des images de l'objet à des rendus non photoréalistes du modèle, ce qui simule le processus de collecte d'annotations manuelles pour cette tâche. Ces correspondances sont ensuite utilisées pour superviser des cartes canoniques de haute qualité pour tout objet d'intérêt. Nous montrons également que les générateurs d'images peuvent encore améliorer le réalisme des vues du modèle, fournissant ainsi une source supplémentaire de supervision pour le modèle.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.Summary
AI-Generated Summary