ChatPaper.aiChatPaper

Prédiction du poids des arêtes pour l'estimation de pose agnostique à la catégorie

Edge Weight Prediction For Category-Agnostic Pose Estimation

November 25, 2024
Auteurs: Or Hirschorn, Shai Avidan
cs.AI

Résumé

L'estimation de pose agnostique à la catégorie (CAPE) localise des points clés à travers diverses catégories d'objets avec un seul modèle, en utilisant une ou quelques images de support annotées. Des travaux récents ont montré que l'utilisation d'un graphe de pose (c'est-à-dire, traiter les points clés comme des nœuds dans un graphe plutôt que des points isolés) aide à gérer les occlusions et à rompre la symétrie. Cependant, ces méthodes supposent un graphe de pose statique avec des arêtes de poids égal, ce qui conduit à des résultats sous-optimaux. Nous introduisons EdgeCape, un nouveau cadre qui surmonte ces limitations en prédisant les poids des arêtes du graphe, ce qui optimise la localisation. Pour exploiter davantage les connaissances a priori structurales, nous proposons d'intégrer un Biais Structurel Markovien, qui module l'interaction d'auto-attention entre les nœuds en fonction du nombre de sauts entre eux. Nous montrons que cela améliore la capacité du modèle à capturer les dépendances spatiales globales. Évalué sur le benchmark MP-100, qui comprend 100 catégories et plus de 20 000 images, EdgeCape atteint des résultats de pointe dans le cadre 1-shot et se classe parmi les méthodes de taille similaire dans le cadre 5-shot, améliorant significativement la précision de la localisation des points clés. Notre code est disponible publiquement.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.

Summary

AI-Generated Summary

PDF62November 26, 2024