STMI: Modulação de Tokens Guiada por Segmentação com Interação Hipergráfica Cross-Modal para Reidentificação Multimodal de Objetos

Resumo

A Reidentificação Multimodal de Objetos (ReID) visa explorar informações complementares de diferentes modalidades para recuperar objetos específicos. No entanto, os métodos existentes frequentemente dependem de filtragem rígida de *tokens* ou estratégias de fusão simples, o que pode levar à perda de pistas discriminativas e ao aumento da interferência de fundo. Para enfrentar esses desafios, propomos o STMI, uma nova estrutura de aprendizagem multimodal composta por três componentes principais: (1) o módulo de Modulação de Características Guiada por Segmentação (SFM) aproveita máscaras geradas pelo SAM para aprimorar as representações do primeiro plano e suprimir o ruído de fundo por meio de modulação de atenção aprendível; (2) o módulo de Realocação Semântica de *Tokens* (STR) emprega *tokens* de consulta aprendíveis e um mecanismo de realocação adaptativa para extrair representações compactas e informativas sem descartar nenhum *token*; (3) o módulo de Interação em Hipergrafo Multimodal (CHI) constrói um hipergrafo unificado entre modalidades para capturar relações semânticas de alta ordem. Experimentos extensivos em *benchmarks* públicos (RGBNT201, RGBNT100 e MSVR310) demonstram a eficácia e a robustez da nossa estrutura STMI proposta em cenários de ReID multimodal.

English

Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.

STMI: Modulação de Tokens Guiada por Segmentação com Interação Hipergráfica Cross-Modal para Reidentificação Multimodal de Objetos

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Resumo

Support