SHIC: Correspondências Forma-Imagem sem Supervisão de Pontos-Chave
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Autores: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumo
O mapeamento de superfície canônica generaliza a detecção de pontos-chave atribuindo cada pixel de um objeto a um ponto correspondente em um modelo 3D. Popularizado pelo DensePose para a análise de humanos, os autores têm tentado aplicar o conceito a mais categorias, porém com sucesso limitado devido ao alto custo da supervisão manual. Neste trabalho, apresentamos o SHIC, um método para aprender mapas canônicos sem supervisão manual, que alcança melhores resultados do que métodos supervisionados para a maioria das categorias. Nossa ideia é aproveitar modelos de visão computacional fundamentais como DINO e Stable Diffusion, que são abertos e possuem excelentes premissas sobre categorias naturais. O SHIC reduz o problema de estimar correspondências de imagem-para-modelo para prever correspondências de imagem-para-imagem usando características dos modelos fundamentais. A redução funciona combinando imagens do objeto com renderizações não fotorealistas do modelo, o que emula o processo de coletar anotações manuais para essa tarefa. Essas correspondências são então usadas para supervisionar mapas canônicos de alta qualidade para qualquer objeto de interesse. Também demonstramos que geradores de imagens podem melhorar ainda mais o realismo das visualizações do modelo, fornecendo uma fonte adicional de supervisão para o modelo.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.Summary
AI-Generated Summary