ChatPaper.aiChatPaper

Предсказание весов ребер для категориально-независимой оценки позы.

Edge Weight Prediction For Category-Agnostic Pose Estimation

November 25, 2024
Авторы: Or Hirschorn, Shai Avidan
cs.AI

Аннотация

Метод оценки позы, независимый от категории объекта (CAPE), локализует ключевые точки по всем различным категориям объектов с использованием одной или нескольких размеченных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов в графе, а не как изолированных точек) помогает справляться с заслонениями и нарушениями симметрии. Однако эти методы предполагают статический граф поз с ребрами равного веса, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения путем предсказания весов ребер графа, что оптимизирует локализацию. Для дальнейшего использования структурных априорных данных мы предлагаем интегрировать Марковское структурное смещение, которое модулирует взаимодействие самовнимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оцененный на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, EdgeCape достигает лучших результатов в режиме 1-шот и лидирует среди методов схожего размера в режиме 5-шот, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.

Summary

AI-Generated Summary

PDF62November 26, 2024