Rete Universale di Proposta delle Regioni Senza Prompt

Abstract

L'identificazione di oggetti potenziali è fondamentale per il riconoscimento e l'analisi degli oggetti in varie applicazioni di computer vision. I metodi esistenti localizzano tipicamente gli oggetti potenziali basandosi su immagini esemplari, categorie predefinite o descrizioni testuali. Tuttavia, la loro dipendenza da prompt di immagini e testo spesso limita la flessibilità, riducendo l'adattabilità negli scenari reali. In questo articolo, introduciamo una nuova Prompt-Free Universal Region Proposal Network (PF-RPN), che identifica oggetti potenziali senza fare affidamento su prompt esterni. In primo luogo, il modulo Sparse Image-Aware Adapter (SIA) esegue la localizzazione iniziale degli oggetti potenziali utilizzando un embedding di query apprendibile aggiornato dinamicamente con caratteristiche visive. Successivamente, il modulo Cascade Self-Prompt (CSP) identifica gli oggetti potenziali rimanenti sfruttando l'embedding apprendibile auto-promptato, aggregando autonomamente caratteristiche visive informative in modo cascading. Infine, il modulo Centerness-Guided Query Selection (CG-QS) facilita la selezione di embedding di query di alta qualità utilizzando una rete di punteggio centerness. Il nostro metodo può essere ottimizzato con dati limitati (ad esempio, il 5% dei dati MS COCO) e applicato direttamente a vari domini applicativi di rilevamento di oggetti per identificare oggetti potenziali senza fine-tuning, come il rilevamento di oggetti subacquei, il rilevamento di difetti industriali e il rilevamento di oggetti in immagini di telerilevamento. I risultati sperimentali su 19 dataset convalidano l'efficacia del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.