Предсказание весов ребер для категориально-независимой оценки позы.
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Авторы: Or Hirschorn, Shai Avidan
cs.AI
Аннотация
Метод оценки позы, независимый от категории объекта (CAPE), локализует ключевые точки по всем различным категориям объектов с использованием одной или нескольких размеченных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов в графе, а не как изолированных точек) помогает справляться с заслонениями и нарушениями симметрии. Однако эти методы предполагают статический граф поз с ребрами равного веса, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения путем предсказания весов ребер графа, что оптимизирует локализацию. Для дальнейшего использования структурных априорных данных мы предлагаем интегрировать Марковское структурное смещение, которое модулирует взаимодействие самовнимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оцененный на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, EdgeCape достигает лучших результатов в режиме 1-шот и лидирует среди методов схожего размера в режиме 5-шот, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary