Réseau Universel de Proposition de Régions Sans Invite

Résumé

L'identification d'objets potentiels est cruciale pour la reconnaissance et l'analyse d'objets dans diverses applications de vision par ordinateur. Les méthodes existantes localisent généralement les objets potentiels en s'appuyant sur des images exemplaires, des catégories prédéfinies ou des descriptions textuelles. Cependant, leur dépendance à l'égard d'invites visuelles et textuelles limite souvent la flexibilité, restreignant l'adaptabilité dans des scénarios réels. Dans cet article, nous présentons un nouveau Réseau de Proposition de Régions Universel Sans Invite (PF-RPN), qui identifie les objets potentiels sans dépendre d'invites externes. Premièrement, le module Adaptateur Sparse Image-Aware (SIA) effectue une localisation initiale des objets potentiels en utilisant un embedding de requête apprenable mis à jour dynamiquement avec des caractéristiques visuelles. Ensuite, le module Cascade Self-Prompt (CSP) identifie les objets potentiels restants en exploitant l'embedding apprenable auto-invité, agrégeant de manière autonome des caractéristiques visuelles informatives de manière cascade. Enfin, le module Centerness-Guided Query Selection (CG-QS) facilite la sélection d'embeddings de requête de haute qualité à l'aide d'un réseau de scoring de centralité. Notre méthode peut être optimisée avec des données limitées (par exemple, 5 % des données MS COCO) et appliquée directement à divers domaines d'application de détection d'objets pour identifier des objets potentiels sans ajustement fin, tels que la détection d'objets sous-marins, la détection de défauts industriels et la détection d'objets dans les images de télédétection. Les résultats expérimentaux sur 19 jeux de données valident l'efficacité de notre méthode. Le code est disponible à l'adresse https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.