SDF-Net: Aprendizado de Características Desembaraçadas com Consciência Estrutural para Reidentificação de Embarcações Óptico-SAR

Resumo

A reidentificação multimodal de navios (ReID) entre imagens ópticas e de radar de abertura sintética (SAR) é fundamentalmente desafiada pela severa discrepância radiométrica entre a imagem óptica passiva e o sensoriamento ativo coerente por radar. Embora as abordagens existentes dependam principalmente do alinhamento de distribuições estatísticas ou do correspondência semântica, elas frequentemente negligenciam um prior físico crítico: os navios são objetos rígidos cujas estruturas geométricas permanecem estáveis entre as modalidades de sensoriamento, enquanto a aparência da textura é altamente dependente da modalidade. Neste trabalho, propomos a SDF-Net, uma Rede de Aprendizado de Características Desacopladas com Consciência Estrutural que incorpora sistematicamente a consistência geométrica na ReID óptico-SAR de navios. Construída sobre uma backbone ViT, a SDF-Net introduz uma restrição de consistência estrutural que extrai estatísticas de energia de gradiente invariantes à escala a partir de camadas intermediárias para ancorar robustamente as representações contra variações radiométricas. Na fase terminal, a SDF-Net desacopla as representações aprendidas em características de identidade invariantes à modalidade e características específicas da modalidade. Essas pistas decopladas são então integradas por meio de uma fusão residual aditiva livre de parâmetros, aumentando efetivamente o poder discriminativo. Experimentos extensivos no conjunto de dados HOSS-ReID demonstram que a SDF-Net supera consistentemente os métodos state-of-the-art existentes. O código e os modelos treinados estão publicamente disponíveis em https://github.com/cfrfree/SDF-Net.

English

Cross-modal ship re-identification (ReID) between optical and synthetic aperture radar (SAR) imagery is fundamentally challenged by the severe radiometric discrepancy between passive optical imaging and coherent active radar sensing. While existing approaches primarily rely on statistical distribution alignment or semantic matching, they often overlook a critical physical prior: ships are rigid objects whose geometric structures remain stable across sensing modalities, whereas texture appearance is highly modality-dependent. In this work, we propose SDF-Net, a Structure-Aware Disentangled Feature Learning Network that systematically incorporates geometric consistency into optical--SAR ship ReID. Built upon a ViT backbone, SDF-Net introduces a structure consistency constraint that extracts scale-invariant gradient energy statistics from intermediate layers to robustly anchor representations against radiometric variations. At the terminal stage, SDF-Net disentangles the learned representations into modality-invariant identity features and modality-specific characteristics. These decoupled cues are then integrated through a parameter-free additive residual fusion, effectively enhancing discriminative power. Extensive experiments on the HOSS-ReID dataset demonstrate that SDF-Net consistently outperforms existing state-of-the-art methods. The code and trained models are publicly available at https://github.com/cfrfree/SDF-Net.