MB-ORES: Een Multi-Branch Object Reasoner voor Visuele Verankering in Remote Sensing
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
March 31, 2025
Auteurs: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI
Samenvatting
Wij stellen een uniform raamwerk voor dat objectdetectie (OD) en visuele verankering (VG) integreert voor remote sensing (RS) beelden. Om conventionele OD te ondersteunen en een intuïtieve prior voor de VG-taak te creëren, fine-tunen we een open-set objectdetector met behulp van verwijzingsexpressiegegevens, waarbij we dit formuleren als een gedeeltelijk begeleide OD-taak. In de eerste fase construeren we een grafische representatie van elke afbeelding, bestaande uit objectqueries, klasse-embeddings en voorstel-locaties. Vervolgens verwerkt onze taakbewuste architectuur deze grafiek om de VG-taak uit te voeren. Het model bestaat uit: (i) een multi-branch netwerk dat ruimtelijke, visuele en categorische kenmerken integreert om taakbewuste voorstellen te genereren, en (ii) een objectredeneringsnetwerk dat waarschijnlijkheden toekent aan voorstellen, gevolgd door een zachte selectiemechanisme voor de uiteindelijke lokalisatie van het verwijzende object. Ons model toont superieure prestaties op de OPT-RSVG en DIOR-RSVG datasets, met aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden, terwijl het klassieke OD-mogelijkheden behoudt. De code zal beschikbaar zijn in onze repository: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and
visual grounding (VG) for remote sensing (RS) imagery. To support conventional
OD and establish an intuitive prior for VG task, we fine-tune an open-set
object detector using referring expression data, framing it as a partially
supervised OD task. In the first stage, we construct a graph representation of
each image, comprising object queries, class embeddings, and proposal
locations. Then, our task-aware architecture processes this graph to perform
the VG task. The model consists of: (i) a multi-branch network that integrates
spatial, visual, and categorical features to generate task-aware proposals, and
(ii) an object reasoning network that assigns probabilities across proposals,
followed by a soft selection mechanism for final referring object localization.
Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG
datasets, achieving significant improvements over state-of-the-art methods
while retaining classical OD capabilities. The code will be available in our
repository: https://github.com/rd20karim/MB-ORES.Summary
AI-Generated Summary