Rumo a uma Segmentação Semi-Supervisionada Estável em Sensoriamento Remoto via Co-Orientação e Co-Fusão

Resumo

A segmentação semântica semissupervisionada de imagens de sensoriamento remoto (SR) oferece uma solução promissora para aliviar o fardo da anotação exaustiva, mas luta fundamentalmente com o desvio de pseudo-rótulos, um fenômeno em que o viés de confirmação leva ao acúmulo de erros durante o treinamento. Neste trabalho, propomos o Co2S, uma estrutura estável de segmentação semissupervisionada de SR que funde sinergicamente conhecimentos prévios de modelos visão-linguagem e modelos auto supervisionados. Especificamente, construímos uma arquitetura dual-heterogênea composta por dois modelos de base visual distintos baseados em ViT, inicializados com CLIP e DINOv3 pré-treinados, para mitigar o acúmulo de erros e o desvio de pseudo-rótulos. Para incorporar efetivamente esses conhecimentos prévios distintos, é introduzido um mecanismo de coguia semântica explícita-implícita que utiliza incorporações de texto e consultas aprendíveis para fornecer orientação a nível de classe explícita e implícita, respectivamente, aprimorando conjuntamente a consistência semântica. Além disso, é desenvolvida uma estratégia de fusão colaborativa de características globais-locais para fundir efetivamente a informação contextual global capturada pelo CLIP com os detalhes locais produzidos pelo DINOv3, permitindo que o modelo gere resultados de segmentação altamente precisos. Experimentos extensos em seis conjuntos de dados populares demonstram a superioridade do método proposto, que alcança consistentemente desempenho líder em vários protocolos de partição e diversos cenários. A página do projeto está disponível em https://xavierjiezou.github.io/Co2S/.

English

Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.

Rumo a uma Segmentação Semi-Supervisionada Estável em Sensoriamento Remoto via Co-Orientação e Co-Fusão

Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

Resumo

Support