Auf dem Weg zu stabiler semi-überwachter Fernerkundungssegmentierung durch Ko-Führung und Ko-Fusion
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
December 28, 2025
papers.authors: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI
papers.abstract
Semisupervisierte semantische Segmentierung von Fernerkundungsbildern (RS) bietet eine vielversprechende Lösung, um den Aufwand umfassender Annotationen zu verringern, leidet jedoch grundsätzlich unter Pseudo-Label-Drift – einem Phänomen, bei dem Bestätigungsfehler zur Akkumulation von Fehlern während des Trainings führen. In dieser Arbeit stellen wir Co2S vor, ein stabiles semisupervisiertes RS-Segmentierungsframework, das Priorwissen aus Vision-Language-Modellen und selbstüberwachten Modellen synergetisch fusioniert. Konkret konstruieren wir eine heterogene Dual-Student-Architektur, die zwei unterschiedliche, auf ViT basierende Vision-Foundation-Modelle umfasst, die mit vortrainierten CLIP- und DINOv3-Modellen initialisiert werden, um Fehlerakkumulation und Pseudo-Label-Drift zu mildern. Um diese unterschiedlichen Priorwissen effektiv zu integrieren, wird ein explizit-impliziter semantischer Co-Guidance-Mechanismus eingeführt, der Text-Einbettungen und lernbare Abfragen nutzt, um explizite bzw. implizite klassenbezogene Führung zu bieten und so gemeinsam die semantische Konsistenz zu verbessern. Darüber hinaus wird eine Global-Lokal-Merkmalsfusionsstrategie entwickelt, um die globalen Kontextinformationen von CLIP effektiv mit den lokalen Details von DINOv3 zu fusionieren, was dem Modell ermöglicht, hochpräzise Segmentierungsergebnisse zu generieren. Umfangreiche Experimente auf sechs gängigen Datensätzen demonstrieren die Überlegenheit der vorgeschlagenen Methode, die durchweg führende Leistung über verschiedene Partitionierungsprotokolle und diverse Szenarien hinweg erzielt. Die Projektseite ist unter https://xavierjiezou.github.io/Co2S/ verfügbar.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.