Red de Propuesta de Regiones Universal Libre de Indicaciones

Resumen

La identificación de objetos potenciales es fundamental para el reconocimiento y análisis de objetos en diversas aplicaciones de visión por computador. Los métodos existentes suelen localizar objetos potenciales basándose en imágenes ejemplares, categorías predefinidas o descripciones textuales. Sin embargo, su dependencia de indicaciones (prompts) de imagen y texto a menudo limita la flexibilidad, restringiendo la adaptabilidad en escenarios del mundo real. En este artículo, presentamos una novedosa Red de Propuesta de Regiones Universal Libre de Prompts (PF-RPN), que identifica objetos potenciales sin depender de indicaciones externas. Primero, el módulo Adaptador Consciente de Imagen Dispersa (SIA) realiza una localización inicial de objetos potenciales utilizando una incrustación (embedding) de consulta entrenable que se actualiza dinámicamente con características visuales. A continuación, el módulo de Auto-Indicación en Cascada (CSP) identifica los objetos potenciales restantes aprovechando la incrustación entrenable auto-inducida, agregando autónomamente características visuales informativas de manera cascada. Finalmente, el módulo de Selección de Consultas Guiada por Centralidad (CG-QS) facilita la selección de incrustaciones de consulta de alta calidad utilizando una red de puntuación de centralidad. Nuestro método puede optimizarse con datos limitados (por ejemplo, el 5% de los datos de MS COCO) y aplicarse directamente a varios dominios de aplicación de detección de objetos para identificar objetos potenciales sin ajuste fino, como la detección de objetos submarinos, la detección de defectos industriales y la detección de objetos en imágenes de teledetección. Los resultados experimentales en 19 conjuntos de datos validan la efectividad de nuestro método. El código está disponible en https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.