Naar stabiele semi-gesuperviseerde remote sensing-segmentatie via co-begeleiding en co-fusie
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
December 28, 2025
Auteurs: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI
Samenvatting
Half-gesuperviseerde semantische segmentatie van remote sensing (RS) beelden biedt een veelbelovende oplossing om de last van uitputtende annotatie te verlichten, maar kampt fundamenteel met pseudo-labeldrift, een fenomeen waarbij bevestigingsbias leidt tot de accumulatie van fouten tijdens de training. In dit werk stellen we Co2S voor, een stabiel half-gesuperviseerd RS-segmentatieraamwerk dat op synergetische wijze prior knowledge van vision-language modellen en zelf-gesuperviseerde modellen fuseert. Concreet construeren we een heterogene dual-student architectuur bestaande uit twee verschillende ViT-gebaseerde vision foundation modellen, geïnitialiseerd met voorgetrainde CLIP en DINOv3, om foutenaccumulatie en pseudo-labeldrift te mitigeren. Om deze verschillende prior knowledge effectief te incorporeren, wordt een expliciet-impliciet semantisch co-guidance mechanisme geïntroduceerd dat tekst-embeddings en leerbare queries gebruikt om respectievelijk expliciete en impliciete klasse-niveau begeleiding te bieden, waardoor de semantische consistentie gezamenlijk wordt verbeterd. Verder wordt een global-local feature collaborative fusion strategie ontwikkeld om de globale contextuele informatie vastgelegd door CLIP effectief te fusioneren met de lokale details geproduceerd door DINOv3, waardoor het model in staat wordt gesteld zeer precieze segmentatieresultaten te genereren. Uitgebreide experimenten op zes populaire datasets demonstreren de superioriteit van de voorgestelde methode, die consistent leidende prestaties behaalt across verschillende partitieprotocollen en uiteenlopende scenario's. De projectpagina is beschikbaar op https://xavierjiezou.github.io/Co2S/.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.