STMI: Modulación de Tokens Guiada por Segmentación con Interacción Hipergráfica Cross-Modal para la Re-Identificación Multi-Modal de Objetos
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
February 28, 2026
Autores: Xingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang
cs.AI
Resumen
La Re-Identificación (ReID) multimodal de objetos tiene como objetivo explotar información complementaria de diferentes modalidades para recuperar objetos específicos. Sin embargo, los métodos existentes a menudo dependen de filtrados rígidos de *tokens* o estrategias de fusión simples, lo que puede conllevar la pérdida de indicios discriminativos y un aumento de la interferencia del fondo. Para abordar estos desafíos, proponemos STMI, un novedoso marco de aprendizaje multimodal que consta de tres componentes clave: (1) el módulo de Modulación de Características Guiada por Segmentación (SFM) aprovecha las máscaras generadas por SAM para mejorar las representaciones del primer plano y suprimir el ruido de fondo mediante una modulación de atención aprendible; (2) el módulo de Reasignación de *Tokens* Semánticos (STR) emplea *tokens* de consulta aprendibles y un mecanismo de reasignación adaptativa para extraer representaciones compactas e informativas sin descartar ningún *token*; (3) el módulo de Interacción de Hipergrafo Multimodal (CHI) construye un hipergrafo unificado entre modalidades para capturar relaciones semánticas de alto orden. Experimentos exhaustivos en benchmarks públicos (es decir, RGBNT201, RGBNT100 y MSVR310) demuestran la efectividad y robustez de nuestro marco STMI propuesto en escenarios de ReID multimodal.
English
Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.