SHIC: Correspondencias Forma-Imagen sin Supervisión de Puntos ClaveSHIC: Shape-Image Correspondences with no Keypoint Supervision
El mapeo de superficie canónica generaliza la detección de puntos clave al asignar cada píxel de un objeto a un punto correspondiente en una plantilla 3D. Popularizado por DensePose para el análisis de humanos, los autores han intentado aplicar el concepto a más categorías, pero con éxito limitado debido al alto costo de la supervisión manual. En este trabajo, presentamos SHIC, un método para aprender mapas canónicos sin supervisión manual que logra mejores resultados que los métodos supervisados para la mayoría de las categorías. Nuestra idea es aprovechar modelos fundamentales de visión por computadora como DINO y Stable Diffusion que son de naturaleza abierta y, por lo tanto, poseen excelentes conocimientos previos sobre categorías naturales. SHIC reduce el problema de estimar correspondencias de imagen a plantilla a predecir correspondencias de imagen a imagen utilizando características de los modelos fundamentales. La reducción funciona emparejando imágenes del objeto con representaciones no fotorealistas de la plantilla, lo que emula el proceso de recopilación de anotaciones manuales para esta tarea. Estas correspondencias se utilizan luego para supervisar mapas canónicos de alta calidad para cualquier objeto de interés. También demostramos que los generadores de imágenes pueden mejorar aún más el realismo de las vistas de la plantilla, lo que proporciona una fuente adicional de supervisión para el modelo.