ChatPaper.aiChatPaper

SHIC: 키포인트 감독 없이 형상-이미지 대응 학습

SHIC: Shape-Image Correspondences with no Keypoint Supervision

July 26, 2024
저자: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI

초록

정규 표면 매핑은 객체의 각 픽셀을 3D 템플릿의 해당 점에 할당함으로써 키포인트 검출을 일반화합니다. 인간 분석을 위한 DensePose로 대중화된 이후, 저자들은 이 개념을 더 많은 범주에 적용하려 시도했지만, 수동 감독의 높은 비용으로 인해 제한된 성공을 거두었습니다. 본 연구에서는 수동 감독 없이 정규 맵을 학습하는 SHIC 방법을 소개하며, 대부분의 범주에서 감독 방법보다 더 나은 결과를 달성합니다. 우리의 아이디어는 DINO와 Stable Diffusion과 같은 기초 컴퓨터 비전 모델을 활용하는 것입니다. 이러한 모델은 개방형이므로 자연 범주에 대한 우수한 사전 지식을 가지고 있습니다. SHIC는 기초 모델의 특징을 사용하여 이미지-템플릿 대응 관계를 추정하는 문제를 이미지-이미지 대응 관계 예측으로 축소합니다. 이 축소는 객체의 이미지를 템플릿의 비사실적 렌더링과 매칭함으로써 이루어지며, 이는 이 작업을 위한 수동 주석 수집 과정을 모방합니다. 이러한 대응 관계는 관심 객체에 대한 고품질 정규 맵을 감독하는 데 사용됩니다. 또한, 이미지 생성기가 템플릿 뷰의 사실성을 더욱 향상시킬 수 있음을 보여주며, 이는 모델에 대한 추가적인 감독 소스를 제공합니다.
English
Canonical surface mapping generalizes keypoint detection by assigning each pixel of an object to a corresponding point in a 3D template. Popularised by DensePose for the analysis of humans, authors have since attempted to apply the concept to more categories, but with limited success due to the high cost of manual supervision. In this work, we introduce SHIC, a method to learn canonical maps without manual supervision which achieves better results than supervised methods for most categories. Our idea is to leverage foundation computer vision models such as DINO and Stable Diffusion that are open-ended and thus possess excellent priors over natural categories. SHIC reduces the problem of estimating image-to-template correspondences to predicting image-to-image correspondences using features from the foundation models. The reduction works by matching images of the object to non-photorealistic renders of the template, which emulates the process of collecting manual annotations for this task. These correspondences are then used to supervise high-quality canonical maps for any object of interest. We also show that image generators can further improve the realism of the template views, which provide an additional source of supervision for the model.

Summary

AI-Generated Summary

PDF422November 28, 2024