ChatPaper.aiChatPaper

MB-ORES: Een Multi-Branch Object Reasoner voor Visuele Verankering in Remote Sensing

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
Auteurs: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

Samenvatting

Wij stellen een uniform raamwerk voor dat objectdetectie (OD) en visuele verankering (VG) integreert voor remote sensing (RS) beelden. Om conventionele OD te ondersteunen en een intuïtieve prior voor de VG-taak te creëren, fine-tunen we een open-set objectdetector met behulp van verwijzingsexpressiegegevens, waarbij we dit formuleren als een gedeeltelijk begeleide OD-taak. In de eerste fase construeren we een grafische representatie van elke afbeelding, bestaande uit objectqueries, klasse-embeddings en voorstel-locaties. Vervolgens verwerkt onze taakbewuste architectuur deze grafiek om de VG-taak uit te voeren. Het model bestaat uit: (i) een multi-branch netwerk dat ruimtelijke, visuele en categorische kenmerken integreert om taakbewuste voorstellen te genereren, en (ii) een objectredeneringsnetwerk dat waarschijnlijkheden toekent aan voorstellen, gevolgd door een zachte selectiemechanisme voor de uiteindelijke lokalisatie van het verwijzende object. Ons model toont superieure prestaties op de OPT-RSVG en DIOR-RSVG datasets, met aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden, terwijl het klassieke OD-mogelijkheden behoudt. De code zal beschikbaar zijn in onze repository: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025