SHIC: Corrispondenze Forma-Immagine senza Supervisione sui Punti Chiave
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Autori: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Abstract
La mappatura canonica delle superfici generalizza il rilevamento dei punti chiave assegnando a ciascun pixel di un oggetto un punto corrispondente in un template 3D. Resa popolare da DensePose per l'analisi degli esseri umani, gli autori hanno successivamente tentato di applicare il concetto a più categorie, ma con successo limitato a causa dell'elevato costo della supervisione manuale. In questo lavoro, introduciamo SHIC, un metodo per apprendere mappe canoniche senza supervisione manuale che ottiene risultati migliori rispetto ai metodi supervisionati per la maggior parte delle categorie. La nostra idea è sfruttare modelli di visione artificiale di base come DINO e Stable Diffusion, che sono aperti e quindi possiedono eccellenti prior sulle categorie naturali. SHIC riduce il problema della stima delle corrispondenze immagine-template alla previsione delle corrispondenze immagine-immagine utilizzando le caratteristiche dei modelli di base. La riduzione funziona abbinando immagini dell'oggetto a rendering non fotorealistici del template, emulando il processo di raccolta di annotazioni manuali per questo compito. Queste corrispondenze vengono poi utilizzate per supervisionare mappe canoniche di alta qualità per qualsiasi oggetto di interesse. Mostriamo inoltre che i generatori di immagini possono ulteriormente migliorare il realismo delle viste del template, fornendo una fonte aggiuntiva di supervisione per il modello.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.