ChatPaper.aiChatPaper

Predicción de Peso de Borde para Estimación de Postura Agnóstica de Categoría

Edge Weight Prediction For Category-Agnostic Pose Estimation

November 25, 2024
Autores: Or Hirschorn, Shai Avidan
cs.AI

Resumen

La Estimación de Postura Agnóstica de Categoría (CAPE) localiza puntos clave en diversas categorías de objetos con un solo modelo, utilizando una o unas pocas imágenes de soporte anotadas. Trabajos recientes han demostrado que el uso de un grafo de postura (es decir, tratando los puntos clave como nodos en un grafo en lugar de puntos aislados) ayuda a manejar las oclusiones y romper la simetría. Sin embargo, estos métodos asumen un grafo de postura estático con aristas de igual peso, lo que conduce a resultados subóptimos. Presentamos EdgeCape, un nuevo marco que supera estas limitaciones al predecir los pesos de las aristas del grafo, lo que optimiza la localización. Para aprovechar aún más los conocimientos previos estructurales, proponemos integrar el Sesgo Estructural Markoviano, que modula la interacción de autoatención entre nodos en función del número de saltos entre ellos. Mostramos que esto mejora la capacidad del modelo para capturar dependencias espaciales globales. Evaluado en el banco de pruebas MP-100, que incluye 100 categorías y más de 20,000 imágenes, EdgeCape logra resultados de vanguardia en el escenario de 1 disparo y lidera entre métodos de tamaño similar en el escenario de 5 disparos, mejorando significativamente la precisión de localización de puntos clave. Nuestro código está disponible públicamente.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.

Summary

AI-Generated Summary

PDF62November 26, 2024