Kantenwertvorhersage für kategorieneutral Pose-Schätzung

papers.abstract

Die Category-Agnostic Pose Estimation (CAPE) lokalisiert Schlüsselpunkte über verschiedene Objektkategorien hinweg mit einem einzigen Modell, das eine oder wenige annotierte Supportbilder verwendet. Aktuelle Arbeiten haben gezeigt, dass die Verwendung eines Pose-Graphen (d.h. die Behandlung von Schlüsselpunkten als Knoten in einem Graphen anstelle von isolierten Punkten) hilft, Okklusionen zu bewältigen und Symmetrien zu durchbrechen. Diese Methoden gehen jedoch von einem statischen Pose-Graphen mit gleichgewichteten Kanten aus, was zu suboptimalen Ergebnissen führt. Wir stellen EdgeCape vor, ein neuartiges Framework, das diese Einschränkungen überwindet, indem es die Kantengewichte des Graphen vorhersagt, was die Lokalisierung optimiert. Um strukturelle Voraussetzungen weiter zu nutzen, schlagen wir vor, Markovian Structural Bias zu integrieren, das die Selbst-Aufmerksamkeits-Interaktion zwischen Knoten basierend auf der Anzahl der Sprünge zwischen ihnen moduliert. Wir zeigen, dass dies die Fähigkeit des Modells verbessert, globale räumliche Abhängigkeiten zu erfassen. Anhand des MP-100-Benchmarks, der 100 Kategorien und über 20.000 Bilder umfasst, erzielt EdgeCape Spitzenleistungen im 1-Shot-Setting und führt unter ähnlich großen Methoden im 5-Shot-Setting, wodurch die Genauigkeit der Schlüsselpunktlokalisierung signifikant verbessert wird. Unser Code ist öffentlich verfügbar.

English

Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.