SHIC: Form-Bild-Korrespondenzen ohne Keypoint-Überwachung
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Autoren: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Zusammenfassung
Die kanonische Oberflächenabbildung verallgemeinert die Schlüsselpunkterkennung, indem jedem Pixel eines Objekts ein entsprechender Punkt in einer 3D-Vorlage zugeordnet wird. Bekannt geworden durch DensePose für die Analyse von Menschen, haben Autoren seither versucht, das Konzept auf weitere Kategorien anzuwenden, jedoch mit begrenztem Erfolg aufgrund hoher Kosten für manuelle Überwachung. In dieser Arbeit stellen wir SHIC vor, eine Methode zum Erlernen kanonischer Abbildungen ohne manuelle Überwachung, die bessere Ergebnisse als überwachte Methoden für die meisten Kategorien erzielt. Unsere Idee besteht darin, grundlegende Computer-Vision-Modelle wie DINO und Stable Diffusion zu nutzen, die offen sind und somit ausgezeichnete Vorkenntnisse über natürliche Kategorien besitzen. SHIC reduziert das Problem der Schätzung von Bild-zu-Vorlagen-Korrespondenzen auf die Vorhersage von Bild-zu-Bild-Korrespondenzen unter Verwendung von Merkmalen der Grundlagenmodelle. Die Reduktion erfolgt durch das Abgleichen von Bildern des Objekts mit nicht fotorealistischen Renderings der Vorlage, was den Prozess des Sammelns manueller Annotationen für diese Aufgabe nachahmt. Diese Korrespondenzen werden dann verwendet, um hochwertige kanonische Abbildungen für jedes interessierende Objekt zu überwachen. Wir zeigen auch, dass Bildgeneratoren die Realitätstreue der Vorlagenansichten weiter verbessern können, was eine zusätzliche Quelle der Überwachung für das Modell darstellt.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.Summary
AI-Generated Summary