ChatPaper.aiChatPaper

Vers une segmentation semi-supervisée stable en télédétection via co-guidance et co-fusion

Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

December 28, 2025
papers.authors: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI

papers.abstract

La segmentation sémantique semi-supervisée des images de télédétection (TD) offre une solution prometteuse pour alléger la charge des annotations exhaustives, mais elle se heurte fondamentalement à la dérive des pseudo-étiquettes, un phénomène où le biais de confirmation entraîne une accumulation d'erreurs pendant l'entraînement. Dans ce travail, nous proposons Co2S, un cadre de segmentation TD semi-supervisé stable qui fusionne de manière synergique des connaissances a priori provenant de modèles vision-langage et de modèles auto-supervisés. Plus précisément, nous construisons une architecture hétérogène à double étudiant comprenant deux modèles de fondation visuelle distincts basés sur ViT, initialisés avec CLIP et DINOv3 pré-entraînés, pour atténuer l'accumulation d'erreurs et la dérive des pseudo-étiquettes. Pour incorporer efficacement ces connaissances a priori distinctes, un mécanisme de co-guidage sémantique explicite-implicite est introduit ; il utilise des embeddings textuels et des requêtes apprenables pour fournir respectivement un guidage explicite et implicite au niveau des classes, améliorant ainsi conjointement la cohérence sémantique. De plus, une stratégie de fusion collaborative des caractéristiques globales-locales est développée pour fusionner efficacement l'information contextuelle globale capturée par CLIP avec les détails locaux produits par DINOv3, permettant au modèle de générer des résultats de segmentation très précis. Des expériences approfondies sur six jeux de données populaires démontrent la supériorité de la méthode proposée, qui obtient constamment des performances leaders across divers protocoles de partition et scénarios variés. La page du projet est disponible à l'adresse https://xavierjiezou.github.io/Co2S/.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.
PDF42January 7, 2026