MB-ORES: Un Razonador de Objetos Multi-Rama para la Fundamentación Visual en Teledetección
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
March 31, 2025
Autores: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI
Resumen
Proponemos un marco unificado que integra la detección de objetos (OD) y el anclaje visual (VG) para imágenes de percepción remota (RS). Para respaldar la OD convencional y establecer un conocimiento previo intuitivo para la tarea de VG, ajustamos un detector de objetos de conjunto abierto utilizando datos de expresiones referenciales, enmarcándolo como una tarea de OD parcialmente supervisada. En la primera etapa, construimos una representación gráfica de cada imagen, que incluye consultas de objetos, incrustaciones de clase y ubicaciones de propuestas. Luego, nuestra arquitectura consciente de la tarea procesa este gráfico para realizar la tarea de VG. El modelo consta de: (i) una red de múltiples ramas que integra características espaciales, visuales y categóricas para generar propuestas conscientes de la tarea, y (ii) una red de razonamiento de objetos que asigna probabilidades entre las propuestas, seguida de un mecanismo de selección suave para la localización final del objeto referido. Nuestro modelo demuestra un rendimiento superior en los conjuntos de datos OPT-RSVG y DIOR-RSVG, logrando mejoras significativas sobre los métodos más avanzados mientras conserva las capacidades clásicas de OD. El código estará disponible en nuestro repositorio: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and
visual grounding (VG) for remote sensing (RS) imagery. To support conventional
OD and establish an intuitive prior for VG task, we fine-tune an open-set
object detector using referring expression data, framing it as a partially
supervised OD task. In the first stage, we construct a graph representation of
each image, comprising object queries, class embeddings, and proposal
locations. Then, our task-aware architecture processes this graph to perform
the VG task. The model consists of: (i) a multi-branch network that integrates
spatial, visual, and categorical features to generate task-aware proposals, and
(ii) an object reasoning network that assigns probabilities across proposals,
followed by a soft selection mechanism for final referring object localization.
Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG
datasets, achieving significant improvements over state-of-the-art methods
while retaining classical OD capabilities. The code will be available in our
repository: https://github.com/rd20karim/MB-ORES.Summary
AI-Generated Summary