Randgewichtvoorspelling voor categorie-agnostische houdingschatting

Samenvatting

Category-Agnostic Pose Estimation (CAPE) lokaliseert keypoints over diverse objectcategorieën met een enkel model, met behulp van één of enkele geannoteerde ondersteunende afbeeldingen. Recente werken hebben aangetoond dat het gebruik van een posegrafiek (d.w.z. keypoints behandelen als knooppunten in een grafiek in plaats van geïsoleerde punten) helpt bij het omgaan met occlusies en het doorbreken van symmetrie. Echter, deze methoden gaan uit van een statische posegrafiek met edges van gelijk gewicht, wat leidt tot suboptimale resultaten. Wij introduceren EdgeCape, een nieuw raamwerk dat deze beperkingen overwint door de gewichten van de grafiekedges te voorspellen, wat de lokaliseringsresultaten optimaliseert. Om structurele aannames verder te benutten, stellen we voor om Markoviaanse Structurele Bias te integreren, die de zelfaandachtsinteractie tussen knooppunten moduleert op basis van het aantal stappen tussen hen. We tonen aan dat dit de mogelijkheid van het model verbetert om globale ruimtelijke afhankelijkheden vast te leggen. Geëvalueerd op de MP-100 benchmark, die 100 categorieën en meer dan 20K afbeeldingen omvat, behaalt EdgeCape state-of-the-art resultaten in de 1-shot instelling en leidt onder methoden van vergelijkbare grootte in de 5-shot instelling, waarbij de nauwkeurigheid van de keypoint lokaliserings significant verbetert. Onze code is openbaar beschikbaar.

English

Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.

Randgewichtvoorspelling voor categorie-agnostische houdingschatting

Edge Weight Prediction For Category-Agnostic Pose Estimation

Samenvatting

Summary

Support

Support