Predicción de Peso de Borde para Estimación de Postura Agnóstica de Categoría
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Autores: Or Hirschorn, Shai Avidan
cs.AI
Resumen
La Estimación de Postura Agnóstica de Categoría (CAPE) localiza puntos clave en diversas categorías de objetos con un solo modelo, utilizando una o unas pocas imágenes de soporte anotadas. Trabajos recientes han demostrado que el uso de un grafo de postura (es decir, tratando los puntos clave como nodos en un grafo en lugar de puntos aislados) ayuda a manejar las oclusiones y romper la simetría. Sin embargo, estos métodos asumen un grafo de postura estático con aristas de igual peso, lo que conduce a resultados subóptimos. Presentamos EdgeCape, un nuevo marco que supera estas limitaciones al predecir los pesos de las aristas del grafo, lo que optimiza la localización. Para aprovechar aún más los conocimientos previos estructurales, proponemos integrar el Sesgo Estructural Markoviano, que modula la interacción de autoatención entre nodos en función del número de saltos entre ellos. Mostramos que esto mejora la capacidad del modelo para capturar dependencias espaciales globales. Evaluado en el banco de pruebas MP-100, que incluye 100 categorías y más de 20,000 imágenes, EdgeCape logra resultados de vanguardia en el escenario de 1 disparo y lidera entre métodos de tamaño similar en el escenario de 5 disparos, mejorando significativamente la precisión de localización de puntos clave. Nuestro código está disponible públicamente.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary