Randgewichtvoorspelling voor categorie-agnostische houdingschatting
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Auteurs: Or Hirschorn, Shai Avidan
cs.AI
Samenvatting
Category-Agnostic Pose Estimation (CAPE) lokaliseert keypoints over diverse objectcategorieën met een enkel model, met behulp van één of enkele geannoteerde ondersteunende afbeeldingen. Recente werken hebben aangetoond dat het gebruik van een posegrafiek (d.w.z. keypoints behandelen als knooppunten in een grafiek in plaats van geïsoleerde punten) helpt bij het omgaan met occlusies en het doorbreken van symmetrie. Echter, deze methoden gaan uit van een statische posegrafiek met edges van gelijk gewicht, wat leidt tot suboptimale resultaten. Wij introduceren EdgeCape, een nieuw raamwerk dat deze beperkingen overwint door de gewichten van de grafiekedges te voorspellen, wat de lokaliseringsresultaten optimaliseert. Om structurele aannames verder te benutten, stellen we voor om Markoviaanse Structurele Bias te integreren, die de zelfaandachtsinteractie tussen knooppunten moduleert op basis van het aantal stappen tussen hen. We tonen aan dat dit de mogelijkheid van het model verbetert om globale ruimtelijke afhankelijkheden vast te leggen. Geëvalueerd op de MP-100 benchmark, die 100 categorieën en meer dan 20K afbeeldingen omvat, behaalt EdgeCape state-of-the-art resultaten in de 1-shot instelling en leidt onder methoden van vergelijkbare grootte in de 5-shot instelling, waarbij de nauwkeurigheid van de keypoint lokaliserings significant verbetert. Onze code is openbaar beschikbaar.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary