Универсальная сеть предложения регионов без промптов

Аннотация

Выявление потенциальных объектов является критически важной задачей для распознавания и анализа объектов в различных приложениях компьютерного зрения. Существующие методы обычно локализуют потенциальные объекты, опираясь на эталонные изображения, предопределенные категории или текстовые описания. Однако их зависимость от визуальных и текстовых подсказок часто ограничивает гибкость, сужая адаптивность в реальных сценариях. В данной статье мы представляем новую Универсальную сеть предложения областей без подсказок (PF-RPN), которая идентифицирует потенциальные объекты без reliance на внешние подсказки. Во-первых, модуль Sparse Image-Aware Adapter (SIA) выполняет первоначальную локализацию потенциальных объектов с использованием обучаемого векторного представления запроса, динамически обновляемого на основе визуальных признаков. Затем модуль Cascade Self-Prompt (CSP) выявляет оставшиеся потенциальные объекты, используя само-инициируемое обучаемое представление, автономно агрегируя информативные визуальные признаки каскадным способом. Наконец, модуль Centerness-Guided Query Selection (CG-QS) облегчает отбор высококачественных векторных представлений запросов с помощью сети оценки центральности. Наш метод может быть оптимизирован на ограниченных данных (например, на 5% данных MS COCO) и напрямую применен в различных предметных областях обнаружения объектов для идентификации потенциальных объектов без дообучения, таких как подводное обнаружение объектов, обнаружение промышленных дефектов и обнаружение объектов на снимках дистанционного зондирования. Результаты экспериментов на 19 наборах данных подтверждают эффективность нашего метода. Код доступен по адресу https://github.com/tangqh03/PF-RPN.

English

Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.