MB-ORES: Um Raciocinador de Objetos Multi-Ramo para Fundamentação Visual em Sensoriamento Remoto
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
March 31, 2025
Autores: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI
Resumo
Propomos um framework unificado que integra detecção de objetos (OD) e
ancoragem visual (VG) para imagens de sensoriamento remoto (RS). Para suportar
a OD convencional e estabelecer um prior intuitivo para a tarefa de VG, ajustamos
finamente um detector de objetos de conjunto aberto utilizando dados de expressões
referenciais, enquadrando-o como uma tarefa de OD parcialmente supervisionada.
Na primeira etapa, construímos uma representação em grafo de cada imagem,
composta por consultas de objetos, embeddings de classe e localizações de
propostas. Em seguida, nossa arquitetura orientada à tarefa processa esse grafo
para realizar a tarefa de VG. O modelo consiste em: (i) uma rede de múltiplos
ramos que integra características espaciais, visuais e categóricas para gerar
propostas orientadas à tarefa, e (ii) uma rede de raciocínio sobre objetos que
atribui probabilidades entre as propostas, seguida por um mecanismo de seleção
suave para a localização final do objeto referenciado. Nosso modelo demonstra
desempenho superior nos conjuntos de dados OPT-RSVG e DIOR-RSVG, alcançando
melhorias significativas em relação aos métodos state-of-the-art, mantendo
simultaneamente as capacidades clássicas de OD. O código estará disponível em
nosso repositório: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and
visual grounding (VG) for remote sensing (RS) imagery. To support conventional
OD and establish an intuitive prior for VG task, we fine-tune an open-set
object detector using referring expression data, framing it as a partially
supervised OD task. In the first stage, we construct a graph representation of
each image, comprising object queries, class embeddings, and proposal
locations. Then, our task-aware architecture processes this graph to perform
the VG task. The model consists of: (i) a multi-branch network that integrates
spatial, visual, and categorical features to generate task-aware proposals, and
(ii) an object reasoning network that assigns probabilities across proposals,
followed by a soft selection mechanism for final referring object localization.
Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG
datasets, achieving significant improvements over state-of-the-art methods
while retaining classical OD capabilities. The code will be available in our
repository: https://github.com/rd20karim/MB-ORES.Summary
AI-Generated Summary