Kantenwertvorhersage für kategorieneutral Pose-Schätzung
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Autoren: Or Hirschorn, Shai Avidan
cs.AI
Zusammenfassung
Die Category-Agnostic Pose Estimation (CAPE) lokalisiert Schlüsselpunkte über verschiedene Objektkategorien hinweg mit einem einzigen Modell, das eine oder wenige annotierte Supportbilder verwendet. Aktuelle Arbeiten haben gezeigt, dass die Verwendung eines Pose-Graphen (d.h. die Behandlung von Schlüsselpunkten als Knoten in einem Graphen anstelle von isolierten Punkten) hilft, Okklusionen zu bewältigen und Symmetrien zu durchbrechen. Diese Methoden gehen jedoch von einem statischen Pose-Graphen mit gleichgewichteten Kanten aus, was zu suboptimalen Ergebnissen führt. Wir stellen EdgeCape vor, ein neuartiges Framework, das diese Einschränkungen überwindet, indem es die Kantengewichte des Graphen vorhersagt, was die Lokalisierung optimiert. Um strukturelle Voraussetzungen weiter zu nutzen, schlagen wir vor, Markovian Structural Bias zu integrieren, das die Selbst-Aufmerksamkeits-Interaktion zwischen Knoten basierend auf der Anzahl der Sprünge zwischen ihnen moduliert. Wir zeigen, dass dies die Fähigkeit des Modells verbessert, globale räumliche Abhängigkeiten zu erfassen. Anhand des MP-100-Benchmarks, der 100 Kategorien und über 20.000 Bilder umfasst, erzielt EdgeCape Spitzenleistungen im 1-Shot-Setting und führt unter ähnlich großen Methoden im 5-Shot-Setting, wodurch die Genauigkeit der Schlüsselpunktlokalisierung signifikant verbessert wird. Unser Code ist öffentlich verfügbar.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary