SHIC: Form-Bild-Korrespondenzen ohne Keypoint-ÜberwachungSHIC: Shape-Image Correspondences with no Keypoint Supervision
Die kanonische Oberflächenabbildung verallgemeinert die Schlüsselpunkterkennung, indem jedem Pixel eines Objekts ein entsprechender Punkt in einer 3D-Vorlage zugeordnet wird. Bekannt geworden durch DensePose für die Analyse von Menschen, haben Autoren seither versucht, das Konzept auf weitere Kategorien anzuwenden, jedoch mit begrenztem Erfolg aufgrund hoher Kosten für manuelle Überwachung. In dieser Arbeit stellen wir SHIC vor, eine Methode zum Erlernen kanonischer Abbildungen ohne manuelle Überwachung, die bessere Ergebnisse als überwachte Methoden für die meisten Kategorien erzielt. Unsere Idee besteht darin, grundlegende Computer-Vision-Modelle wie DINO und Stable Diffusion zu nutzen, die offen sind und somit ausgezeichnete Vorkenntnisse über natürliche Kategorien besitzen. SHIC reduziert das Problem der Schätzung von Bild-zu-Vorlagen-Korrespondenzen auf die Vorhersage von Bild-zu-Bild-Korrespondenzen unter Verwendung von Merkmalen der Grundlagenmodelle. Die Reduktion erfolgt durch das Abgleichen von Bildern des Objekts mit nicht fotorealistischen Renderings der Vorlage, was den Prozess des Sammelns manueller Annotationen für diese Aufgabe nachahmt. Diese Korrespondenzen werden dann verwendet, um hochwertige kanonische Abbildungen für jedes interessierende Objekt zu überwachen. Wir zeigen auch, dass Bildgeneratoren die Realitätstreue der Vorlagenansichten weiter verbessern können, was eine zusätzliche Quelle der Überwachung für das Modell darstellt.