MB-ORES: Un Razonador de Objetos Multi-Rama para la Fundamentación Visual en Teledetección

Resumen

Proponemos un marco unificado que integra la detección de objetos (OD) y el anclaje visual (VG) para imágenes de percepción remota (RS). Para respaldar la OD convencional y establecer un conocimiento previo intuitivo para la tarea de VG, ajustamos un detector de objetos de conjunto abierto utilizando datos de expresiones referenciales, enmarcándolo como una tarea de OD parcialmente supervisada. En la primera etapa, construimos una representación gráfica de cada imagen, que incluye consultas de objetos, incrustaciones de clase y ubicaciones de propuestas. Luego, nuestra arquitectura consciente de la tarea procesa este gráfico para realizar la tarea de VG. El modelo consta de: (i) una red de múltiples ramas que integra características espaciales, visuales y categóricas para generar propuestas conscientes de la tarea, y (ii) una red de razonamiento de objetos que asigna probabilidades entre las propuestas, seguida de un mecanismo de selección suave para la localización final del objeto referido. Nuestro modelo demuestra un rendimiento superior en los conjuntos de datos OPT-RSVG y DIOR-RSVG, logrando mejoras significativas sobre los métodos más avanzados mientras conserva las capacidades clásicas de OD. El código estará disponible en nuestro repositorio: https://github.com/rd20karim/MB-ORES.

English

We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

MB-ORES: Un Razonador de Objetos Multi-Rama para la Fundamentación Visual en Teledetección

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Resumen

Support