ChatPaper.aiChatPaper

SHIC: Vorm-Beeld Correspondenties zonder Toezicht op Sleutelpunten

SHIC: Shape-Image Correspondences with no Keypoint Supervision

July 26, 2024
Auteurs: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI

Samenvatting

Canonieke oppervlakte-afbeelding generaliseert keypoint-detectie door elk pixel van een object toe te wijzen aan een corresponderend punt in een 3D-sjabloon. Populair gemaakt door DensePose voor de analyse van mensen, hebben auteurs sindsdien geprobeerd het concept toe te passen op meer categorieën, maar met beperkt succes vanwege de hoge kosten van handmatige supervisie. In dit werk introduceren we SHIC, een methode om canonieke afbeeldingen te leren zonder handmatige supervisie, die betere resultaten behaalt dan gesuperviseerde methoden voor de meeste categorieën. Ons idee is om gebruik te maken van fundamentele computervisie-modellen zoals DINO en Stable Diffusion, die open-ended zijn en dus uitstekende priors hebben over natuurlijke categorieën. SHIC reduceert het probleem van het schatten van beeld-naar-sjabloon-correspondenties tot het voorspellen van beeld-naar-beeld-correspondenties met behulp van kenmerken uit de fundamentele modellen. De reductie werkt door afbeeldingen van het object te matchen met niet-fotorealistische weergaven van het sjabloon, wat het proces van het verzamelen van handmatige annotaties voor deze taak nabootst. Deze correspondenties worden vervolgens gebruikt om hoogwaardige canonieke afbeeldingen te superviseren voor elk object van belang. We laten ook zien dat beeldgeneratoren de realiteit van de sjabloonweergaven verder kunnen verbeteren, wat een aanvullende bron van supervisie voor het model biedt.
English
Canonical surface mapping generalizes keypoint detection by assigning each pixel of an object to a corresponding point in a 3D template. Popularised by DensePose for the analysis of humans, authors have since attempted to apply the concept to more categories, but with limited success due to the high cost of manual supervision. In this work, we introduce SHIC, a method to learn canonical maps without manual supervision which achieves better results than supervised methods for most categories. Our idea is to leverage foundation computer vision models such as DINO and Stable Diffusion that are open-ended and thus possess excellent priors over natural categories. SHIC reduces the problem of estimating image-to-template correspondences to predicting image-to-image correspondences using features from the foundation models. The reduction works by matching images of the object to non-photorealistic renders of the template, which emulates the process of collecting manual annotations for this task. These correspondences are then used to supervise high-quality canonical maps for any object of interest. We also show that image generators can further improve the realism of the template views, which provide an additional source of supervision for the model.
PDF412November 28, 2024