STMI: マルチモーダル物体再識別のためのセグメンテーション誘導型トークン変調とクロスモーダル超グラフ相互作用
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
February 28, 2026
著者: Xingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang
cs.AI
要旨
マルチモーダル物体再識別(ReID)は、異なるモダリティから得られる相補的な情報を活用し、特定の物体を検索することを目的としている。しかし、既存の手法はハードトークンフィルタリングや単純な融合戦略に依存することが多く、識別に有効な手がかりの喪失や背景干渉の増大を招く恐れがある。これらの課題に対処するため、我々は新しいマルチモーダル学習フレームワークであるSTMIを提案する。STMIは以下の3つの主要コンポーネントで構成される:(1)セグメンテーション誘導型特徴変調(SFM)モジュールは、SAMによって生成されたマスクを利用し、学習可能な注意変調を通じて前景表現を強化し背景ノイズを抑制する。(2)セマンティックトークン再配置(STR)モジュールは、学習可能なクエリトークンと適応的再配置機構を採用し、いかなるトークンも廃棄することなく、コンパクトで情報量の多い表現を抽出する。(3)クロスモーダルハイパーグラフ相互作用(CHI)モジュールは、モダリティを超えた統一ハイパーグラフを構築し、高次セマンティック関係を捕捉する。公開ベンチマーク(RGBNT201、RGBNT100、MSVR310)における大規模な実験により、提案するSTMIフレームワークのマルチモーダルReIDシナリオにおける有効性と頑健性が実証された。
English
Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.