SHIC: Соответствия формы изображения без надзора за ключевыми точкамиSHIC: Shape-Image Correspondences with no Keypoint Supervision
Каноническое отображение поверхности обобщает обнаружение ключевых точек, назначая каждому пикселю объекта соответствующую точку в 3D шаблоне. Популяризированное с помощью DensePose для анализа людей, авторы впоследствии пытались применить концепцию к более широкому спектру категорий, однако с ограниченным успехом из-за высокой стоимости ручного наблюдения. В данной работе мы представляем SHIC, метод для обучения канонических карт без ручного наблюдения, который достигает лучших результатов, чем методы с учителем для большинства категорий. Наша идея заключается в использовании базовых моделей компьютерного зрения, таких как DINO и Stable Diffusion, которые являются открытыми и обладают отличными априорными знаниями о естественных категориях. SHIC сводит задачу оценки соответствий изображение-шаблон к предсказанию соответствий изображение-изображение с использованием признаков из базовых моделей. Сводка работает путем сопоставления изображений объекта с непофотографическими рендерами шаблона, что имитирует процесс сбора ручных аннотаций для этой задачи. Эти соответствия затем используются для наблюдения за высококачественными каноническими картами для любого интересующего объекта. Мы также показываем, что генераторы изображений могут дополнительно улучшить реализм видов шаблона, что предоставляет дополнительный источник наблюдения для модели.