ChatPaper.aiChatPaper

MB-ORES: リモートセンシングにおける視覚的グラウンディングのためのマルチブランチオブジェクト推論器

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
著者: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

要旨

リモートセンシング(RS)画像における物体検出(OD)と視覚的グラウンディング(VG)を統合する統一フレームワークを提案します。従来のODをサポートし、VGタスクのための直感的な事前知識を確立するために、参照表現データを使用してオープンセット物体検出器をファインチューニングし、部分的に教師ありのODタスクとして定式化します。最初の段階では、各画像のグラフ表現を構築し、オブジェクトクエリ、クラス埋め込み、および提案位置を含めます。その後、タスクを意識したアーキテクチャがこのグラフを処理してVGタスクを実行します。モデルは以下の要素で構成されます:(i)空間的、視覚的、およびカテゴリ的特徴を統合してタスクを意識した提案を生成するマルチブランチネットワーク、(ii)提案全体に確率を割り当てるオブジェクト推論ネットワーク、そして最終的な参照オブジェクトの位置特定を行うためのソフト選択メカニズムです。本モデルは、OPT-RSVGおよびDIOR-RSVGデータセットにおいて、最先端の手法を大幅に上回る優れた性能を示し、古典的なOD機能を維持しています。コードは以下のリポジトリで公開されます:https://github.com/rd20karim/MB-ORES。
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025