STMI: Segmentatie-Gestuurde Tokenmodulatie met Cross-Modale Hypergraafinteractie voor Multi-Modale Objectherkenning
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
February 28, 2026
Auteurs: Xingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang
cs.AI
Samenvatting
Multi-modale objectherkenning (Re-identification, ReID) heeft als doel complementaire informatie uit verschillende modaliteiten te benutten om specifieke objecten op te sporen. Bestaande methoden vertrouwen echter vaak op rigide tokenfiltering of eenvoudige fusiestrategieën, wat kan leiden tot verlies van onderscheidende kenmerken en toegenomen achtergrondinterferentie. Om deze problemen aan te pakken, stellen wij STMI voor, een nieuw multi-modale leerraamwerk bestaande uit drie kerncomponenten: (1) de Segmentatie-Gestuurde Kenmerkaanpassing (SFM)-module benut door SAM gegenereerde maskers om voorstellingen van de voorgrond te versterken en achtergrondruis te onderdrukken via leerbare aandachtmodulatie; (2) de Semantische Tokenherallocatie (STR)-module gebruikt leerbare querytokens en een adaptief herallocatiemechanisme om compacte en informatieve voorstellingen te extraheren zonder tokens te verwijderen; (3) de Cross-modale Hypergraafinteractie (CHI)-module construeert een uniforme hypergraaf over modaliteiten heen om semantische relaties van hogere orde vast te leggen. Uitgebreide experimenten op publieke benchmarks (RGBNT201, RGBNT100 en MSVR310) tonen de effectiviteit en robuustheid van ons voorgestelde STMI-raamwerk in multi-modale ReID-scenario's aan.
English
Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.