ChatPaper.aiChatPaper

MB-ORES : Un raisonneur d'objets à branches multiples pour l'ancrage visuel en télédétection

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
Auteurs: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

Résumé

Nous proposons un cadre unifié qui intègre la détection d'objets (OD) et l'ancrage visuel (VG) pour les images de télédétection (RS). Pour supporter l'OD conventionnelle et établir un a priori intuitif pour la tâche de VG, nous affinons un détecteur d'objets à ensemble ouvert en utilisant des données d'expressions référentielles, en le cadrant comme une tâche d'OD partiellement supervisée. Dans un premier temps, nous construisons une représentation graphique de chaque image, comprenant des requêtes d'objets, des embeddings de classe et des localisations de propositions. Ensuite, notre architecture adaptée à la tâche traite ce graphe pour effectuer la tâche de VG. Le modèle se compose de : (i) un réseau multi-branches qui intègre des caractéristiques spatiales, visuelles et catégorielles pour générer des propositions adaptées à la tâche, et (ii) un réseau de raisonnement sur les objets qui attribue des probabilités aux propositions, suivi d'un mécanisme de sélection douce pour la localisation finale de l'objet référent. Notre modèle démontre une performance supérieure sur les ensembles de données OPT-RSVG et DIOR-RSVG, obtenant des améliorations significatives par rapport aux méthodes de pointe tout en conservant les capacités classiques d'OD. Le code sera disponible dans notre dépôt : https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025