ChatPaper.aiChatPaper

MB-ORES: Ein Multi-Branch-Objektbegründer für visuelle Verankerung in der Fernerkundung

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
Autoren: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

Zusammenfassung

Wir schlagen ein einheitliches Framework vor, das Objekterkennung (OD) und visuelle Verankerung (VG) für Fernerkundungsbilder (RS) integriert. Um die konventionelle OD zu unterstützen und eine intuitive Priorität für die VG-Aufgabe zu schaffen, feintunen wir einen Open-Set-Objektdetektor mit Referenzausdrucksdaten und formulieren dies als eine teilweise überwachte OD-Aufgabe. In der ersten Stufe konstruieren wir eine Graph-Darstellung jedes Bildes, die Objektanfragen, Klassen-Einbettungen und Vorschlagsorte umfasst. Anschließend verarbeitet unsere aufgabenbewusste Architektur diesen Graphen, um die VG-Aufgabe durchzuführen. Das Modell besteht aus: (i) einem Multi-Branch-Netzwerk, das räumliche, visuelle und kategoriale Merkmale integriert, um aufgabenbewusste Vorschläge zu generieren, und (ii) einem Objektbegründungsnetzwerk, das Wahrscheinlichkeiten über Vorschläge verteilt, gefolgt von einem Soft-Selection-Mechanismus für die endgültige Lokalisierung des referenzierten Objekts. Unser Modell zeigt eine überlegene Leistung auf den Datensätzen OPT-RSVG und DIOR-RSVG und erzielt signifikante Verbesserungen gegenüber state-of-the-art Methoden, während es gleichzeitig klassische OD-Fähigkeiten beibehält. Der Code wird in unserem Repository verfügbar sein: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025