SHIC: Correspondencias Forma-Imagen sin Supervisión de Puntos Clave
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Autores: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumen
El mapeo de superficie canónica generaliza la detección de puntos clave al asignar cada píxel de un objeto a un punto correspondiente en una plantilla 3D. Popularizado por DensePose para el análisis de humanos, los autores han intentado aplicar el concepto a más categorías, pero con éxito limitado debido al alto costo de la supervisión manual. En este trabajo, presentamos SHIC, un método para aprender mapas canónicos sin supervisión manual que logra mejores resultados que los métodos supervisados para la mayoría de las categorías. Nuestra idea es aprovechar modelos fundamentales de visión por computadora como DINO y Stable Diffusion que son de naturaleza abierta y, por lo tanto, poseen excelentes conocimientos previos sobre categorías naturales. SHIC reduce el problema de estimar correspondencias de imagen a plantilla a predecir correspondencias de imagen a imagen utilizando características de los modelos fundamentales. La reducción funciona emparejando imágenes del objeto con representaciones no fotorealistas de la plantilla, lo que emula el proceso de recopilación de anotaciones manuales para esta tarea. Estas correspondencias se utilizan luego para supervisar mapas canónicos de alta calidad para cualquier objeto de interés. También demostramos que los generadores de imágenes pueden mejorar aún más el realismo de las vistas de la plantilla, lo que proporciona una fuente adicional de supervisión para el modelo.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.