ChatPaper.aiChatPaper

프롬프트 프리 범용 영역 제안 네트워크

Prompt-Free Universal Region Proposal Network

March 18, 2026
저자: Qihong Tang, Changhan Liu, Shaofeng Zhang, Wenbin Li, Qi Fan, Yang Gao
cs.AI

초록

잠재적 객체 식별은 다양한 컴퓨터 비전 응용 분야에서 객체 인식 및 분석에 있어 핵심적인 과제입니다. 기존 방법들은 일반적으로 예시 이미지, 사전 정의된 범주 또는 텍스트 설명에 의존하여 잠재적 객체를 위치 특정화합니다. 그러나 이러한 이미지 및 텍스트 프롬프트에 대한 의존성은 유연성을 제한하여 실제 시나리오에서의 적응성을 떨어뜨리는 경우가 많습니다. 본 논문에서는 외부 프롬프트에 의존하지 않고 잠재적 객체를 식별하는 새로운 프롬프트 무관 범용 영역 제안 네트워크(PF-RPN)를 제안합니다. 먼저, 희소 이미지 인식 어댑터(SIA) 모듈은 시각적 특징으로 동적으로 업데이트되는 학습 가능 쿼리 임베딩을 사용하여 잠재적 객체의 초기 위치 특정화를 수행합니다. 다음으로, 계단식 자체 프롬프트(CSP) 모듈은 자체 프롬프트 방식의 학습 가능 임베딩을 활용하여 남은 잠재적 객체를 식별하며, 계단식 방식으로 정보가 풍부한 시각적 특징을 자율적으로 집계합니다. 마지막으로, 중심점 기반 쿼리 선택(CG-QS) 모듈은 중심점 점수화 네트워크를 사용하여 고품질 쿼리 임베딩 선택을 용이하게 합니다. 우리의 방법은 적은 양의 데이터(예: MS COCO 데이터의 5%)로 최적화될 수 있으며, 미세 조정 없이도 수중 객체 탐지, 산업 결함 탐지, 원격 감지 이미지 객체 탐지와 같은 다양한 객체 탐지 응용 분야에 직접 적용 가능합니다. 19개 데이터셋에 대한 실험 결과는 우리 방법의 효과성을 입증합니다. 코드는 https://github.com/tangqh03/PF-RPN에서 확인할 수 있습니다.
English
Identifying potential objects is critical for object recognition and analysis across various computer vision applications. Existing methods typically localize potential objects by relying on exemplar images, predefined categories, or textual descriptions. However, their reliance on image and text prompts often limits flexibility, restricting adaptability in real-world scenarios. In this paper, we introduce a novel Prompt-Free Universal Region Proposal Network (PF-RPN), which identifies potential objects without relying on external prompts. First, the Sparse Image-Aware Adapter (SIA) module performs initial localization of potential objects using a learnable query embedding dynamically updated with visual features. Next, the Cascade Self-Prompt (CSP) module identifies the remaining potential objects by leveraging the self-prompted learnable embedding, autonomously aggregating informative visual features in a cascading manner. Finally, the Centerness-Guided Query Selection (CG-QS) module facilitates the selection of high-quality query embeddings using a centerness scoring network. Our method can be optimized with limited data (e.g., 5% of MS COCO data) and applied directly to various object detection application domains for identifying potential objects without fine-tuning, such as underwater object detection, industrial defect detection, and remote sensing image object detection. Experimental results across 19 datasets validate the effectiveness of our method. Code is available at https://github.com/tangqh03/PF-RPN.
PDF11March 21, 2026