SHIC: Соответствия формы изображения без надзора за ключевыми точками
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
Авторы: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
Аннотация
Каноническое отображение поверхности обобщает обнаружение ключевых точек, назначая каждому пикселю объекта соответствующую точку в 3D шаблоне. Популяризированное с помощью DensePose для анализа людей, авторы впоследствии пытались применить концепцию к более широкому спектру категорий, однако с ограниченным успехом из-за высокой стоимости ручного наблюдения. В данной работе мы представляем SHIC, метод для обучения канонических карт без ручного наблюдения, который достигает лучших результатов, чем методы с учителем для большинства категорий. Наша идея заключается в использовании базовых моделей компьютерного зрения, таких как DINO и Stable Diffusion, которые являются открытыми и обладают отличными априорными знаниями о естественных категориях. SHIC сводит задачу оценки соответствий изображение-шаблон к предсказанию соответствий изображение-изображение с использованием признаков из базовых моделей. Сводка работает путем сопоставления изображений объекта с непофотографическими рендерами шаблона, что имитирует процесс сбора ручных аннотаций для этой задачи. Эти соответствия затем используются для наблюдения за высококачественными каноническими картами для любого интересующего объекта. Мы также показываем, что генераторы изображений могут дополнительно улучшить реализм видов шаблона, что предоставляет дополнительный источник наблюдения для модели.
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.Summary
AI-Generated Summary