ChatPaper.aiChatPaper

STMI : Modulation de Tokens Guidée par la Segmentation avec Interaction Hypergraphe Multimodale pour la Ré-identification d'Objets Multimodaux

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

February 28, 2026
Auteurs: Xingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang
cs.AI

Résumé

La ré-identification d'objets multi-modale (ReID) vise à exploiter l'information complémentaire de différentes modalités pour retrouver des objets spécifiques. Cependant, les méthodes existantes reposent souvent sur un filtrage rigide de tokens ou des stratégies de fusion simples, ce qui peut entraîner la perte d'indices discriminants et accroître les interférences de l'arrière-plan. Pour relever ces défis, nous proposons STMI, une nouvelle architecture d'apprentissage multi-modal composée de trois éléments clés : (1) le module de Modulation de Caractéristiques Guidée par Segmentation (SFM) utilise des masques générés par SAM pour améliorer les représentations de premier plan et supprimer le bruit de fond via une modulation d'attention apprenable ; (2) le module de Réallocation de Tokens Sémantiques (STR) emploie des tokens requêtes apprenables et un mécanisme de réallocation adaptatif pour extraire des représentations compactes et informatives sans éliminer aucun token ; (3) le module d'Interaction Hypergraphe Inter-Modale (CHI) construit un hypergraphe unifié entre les modalités pour capturer des relations sémantiques d'ordre élevé. Des expériences approfondies sur des benchmarks publics (RGBNT201, RGBNT100 et MSVR310) démontrent l'efficacité et la robustesse de notre architecture STMI dans les scénarios de ReID multi-modale.
English
Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.
PDF32March 9, 2026