ChatPaper.aiChatPaper

MB-ORES: 원격 감지를 위한 시각적 접지 다중 분기 객체 추론기

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
저자: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

초록

원격 감지(RS) 이미지를 위한 객체 탐지(OD)와 시각적 그라운딩(VG)을 통합한 통합 프레임워크를 제안합니다. 기존의 OD를 지원하고 VG 작업을 위한 직관적인 사전 지식을 확립하기 위해, 참조 표현 데이터를 사용하여 개방형 객체 탐지기를 미세 조정하며 이를 부분적으로 지도된 OD 작업으로 구성합니다. 첫 번째 단계에서는 각 이미지의 그래프 표현을 구성하며, 이는 객체 쿼리, 클래스 임베딩, 제안 위치로 이루어집니다. 그런 다음, 우리의 작업 인식 아키텍처는 이 그래프를 처리하여 VG 작업을 수행합니다. 모델은 다음과 같이 구성됩니다: (i) 공간적, 시각적, 범주적 특징을 통합하여 작업 인식 제안을 생성하는 다중 분기 네트워크, 그리고 (ii) 제안들에 걸쳐 확률을 할당하고 최종 참조 객체 위치 지정을 위한 소프트 선택 메커니즘을 포함하는 객체 추론 네트워크. 우리의 모델은 OPT-RSVG 및 DIOR-RSVG 데이터셋에서 최첨단 방법 대비 상당한 성능 향상을 달성하면서도 기존의 OD 기능을 유지합니다. 코드는 우리의 저장소에서 이용 가능할 예정입니다: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025