Rede Universal de Proposta de Regiões Livre de Prompt

Resumo

A identificação de objetos potenciais é crucial para o reconhecimento e análise de objetos em diversas aplicações de visão computacional. Os métodos existentes normalmente localizam objetos potenciais com base em imagens exemplares, categorias predefinidas ou descrições textuais. No entanto, a sua dependência de *prompts* de imagem e texto frequentemente limita a flexibilidade, restringindo a adaptabilidade em cenários do mundo real. Neste artigo, introduzimos uma nova Rede Neural de Proposta de Região Universal Livre de *Prompts* (PF-RPN), que identifica objetos potenciais sem depender de *prompts* externos. Primeiro, o módulo Adaptador Esparso com Consciência de Imagem (SIA) realiza a localização inicial de objetos potenciais usando um *embedding* de consulta aprendível, atualizado dinamicamente com características visuais. Em seguida, o módulo de Auto-*Prompt* em Cascata (CSP) identifica os objetos potenciais remanescentes aproveitando o *embedding* aprendível auto-promptado, agregando de forma autónoma características visuais informativas de maneira encadeada. Por fim, o módulo de Seleção de Consulta Guiada por Centralidade (CG-QS) facilita a seleção de *embeddings* de consulta de alta qualidade usando uma rede de pontuação de centralidade. O nosso método pode ser otimizado com dados limitados (por exemplo, 5% dos dados do MS COCO) e aplicado diretamente a vários domínios de aplicação de deteção de objetos para identificar objetos potenciais sem afinação fina, como deteção de objetos subaquáticos, deteção de defeitos industriais e deteção de objetos em imagens de deteção remota. Resultados experimentais em 19 conjuntos de dados validam a eficácia do nosso método. O código está disponível em https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.