Prompt-freie universelle Regionsvorschlags-Netzwerkarchitektur

Zusammenfassung

Die Identifizierung potenzieller Objekte ist entscheidend für die Objekterkennung und -analyse in verschiedenen Computer-Vision-Anwendungen. Bisherige Methoden lokalisieren potenzielle Objekte typischerweise durch den Rückgriff auf Beispielbilder, vordefinierte Kategorien oder textuelle Beschreibungen. Ihre Abhängigkeit von Bild- und Textprompts schränkt jedoch oft die Flexibilität ein und begrenzt die Anpassungsfähigkeit in realen Szenarien. In diesem Beitrag stellen wir ein neuartiges Prompt-freies universelles Region Proposal Network (PF-RPN) vor, das potenzielle Objekte ohne externe Prompts identifiziert. Zunächst führt das Sparse Image-Aware Adapter (SIA)-Modul eine initiale Lokalisierung potenzieller Objekte unter Verwendung einer lernbaren Query-Embedding durch, die dynamisch mit visuellen Merkmalen aktualisiert wird. Anschließend identifiziert das Cascade Self-Prompt (CSP)-Modul die verbleibenden potenziellen Objekte, indem es die selbst-gepimpte lernbare Embedding nutzt und eigenständig informative visuelle Merkmale in kaskadierender Weise aggregiert. Schließlich erleichtert das Centerness-Guided Query Selection (CG-QS)-Modul die Auswahl hochwertiger Query-Embeddings unter Verwendung eines Centerness-Bewertungsnetzwerks. Unsere Methode kann mit begrenzten Daten (z.B. 5 % der MS-COCO-Daten) optimiert und direkt auf verschiedene Anwendungsbereiche der Objekterkennung zur Identifizierung potenzieller Objekte ohne Feinabstimmung angewendet werden, wie z.B. Unterwasser-Objekterkennung, industrielle Fehlererkennung und Objekterkennung in Fernerkundungsbildern. Experimentelle Ergebnisse über 19 Datensätze validieren die Wirksamkeit unserer Methode. Der Code ist verfügbar unter https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.