Previsão de Peso de Borda para Estimação de Pose Agnóstica a Categorias
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Autores: Or Hirschorn, Shai Avidan
cs.AI
Resumo
A Estimação de Pose Agnóstica de Categoria (CAPE) localiza keypoints em diversas categorias de objetos com um único modelo, utilizando uma ou algumas imagens de suporte anotadas. Trabalhos recentes têm demonstrado que o uso de um grafo de pose (ou seja, tratando keypoints como nós em um grafo ao invés de pontos isolados) ajuda a lidar com oclusões e quebra de simetria. No entanto, esses métodos pressupõem um grafo de pose estático com arestas de peso igual, resultando em resultados subótimos. Apresentamos o EdgeCape, um novo framework que supera essas limitações ao prever os pesos das arestas do grafo, otimizando a localização. Para aproveitar ainda mais os conhecimentos estruturais prévios, propomos a integração do Viés Estrutural Markoviano, que modula a interação de autoatenção entre nós com base no número de saltos entre eles. Mostramos que isso melhora a capacidade do modelo de capturar dependências espaciais globais. Avaliado no benchmark MP-100, que inclui 100 categorias e mais de 20 mil imagens, o EdgeCape alcança resultados de ponta na configuração de 1 disparo e lidera entre métodos de tamanho semelhante na configuração de 5 disparos, melhorando significativamente a precisão de localização de keypoints. Nosso código está disponível publicamente.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary