MB-ORES: Многомодульный объектный анализатор для визуального связывания в дистанционном зондировании
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
March 31, 2025
Авторы: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI
Аннотация
Мы предлагаем унифицированную структуру, которая объединяет задачи обнаружения объектов (OD) и визуального заземления (VG) для изображений дистанционного зондирования (RS). Для поддержки классического OD и создания интуитивного априори для задачи VG мы дообучаем детектор объектов с открытым множеством классов, используя данные с референсными выражениями, представляя это как частично контролируемую задачу OD. На первом этапе мы строим графовое представление каждого изображения, включающее запросы объектов, эмбеддинги классов и локации предложений. Затем наша архитектура, ориентированная на задачу, обрабатывает этот граф для выполнения задачи VG. Модель состоит из: (i) многоканальной сети, которая интегрирует пространственные, визуальные и категориальные признаки для генерации предложений, ориентированных на задачу, и (ii) сети рассуждений об объектах, которая назначает вероятности для предложений, за которыми следует механизм мягкого выбора для окончательной локализации целевого объекта. Наша модель демонстрирует превосходную производительность на наборах данных OPT-RSVG и DIOR-RSVG, достигая значительных улучшений по сравнению с современными методами, сохраняя при этом классические возможности OD. Код будет доступен в нашем репозитории: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and
visual grounding (VG) for remote sensing (RS) imagery. To support conventional
OD and establish an intuitive prior for VG task, we fine-tune an open-set
object detector using referring expression data, framing it as a partially
supervised OD task. In the first stage, we construct a graph representation of
each image, comprising object queries, class embeddings, and proposal
locations. Then, our task-aware architecture processes this graph to perform
the VG task. The model consists of: (i) a multi-branch network that integrates
spatial, visual, and categorical features to generate task-aware proposals, and
(ii) an object reasoning network that assigns probabilities across proposals,
followed by a soft selection mechanism for final referring object localization.
Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG
datasets, achieving significant improvements over state-of-the-art methods
while retaining classical OD capabilities. The code will be available in our
repository: https://github.com/rd20karim/MB-ORES.Summary
AI-Generated Summary