ChatPaper.aiChatPaper

安定した半教師付きリモートセンシングセグメンテーションに向けた共誘導・共融合アプローチ

Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

December 28, 2025
著者: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI

要旨

半教師ありリモートセンシング(RS)画像セマンティックセグメンテーションは、煩雑なアノテーション作業の負担を軽減する有望な解決策を提供するが、擬似ラベルのドリフトという根本的な問題に直面している。これは、訓練過程中に確認バイアスによって誤差が蓄積される現象である。本研究では、視覚言語モデルと自己教師ありモデルからの事前知識を協調的に融合させる、安定した半教師ありRSセグメンテーション枠組みであるCo2Sを提案する。具体的には、事前学習済みのCLIPとDINOv3で初期化された2つの異なるViTベースの視覚基盤モデルから構成される異種デュアルステューデントアーキテクチャを構築し、誤差蓄積と擬似ラベルドリフトを緩和する。これらの異なる事前知識を効果的に組み込むため、テキスト埋め込みと学習可能なクエリをそれぞれ明示的および暗黙的なクラスレベル指導として利用する明示的-暗黙的セマンティック共誘導機構を導入し、セマンティック一貫性の共同強化を実現する。さらに、CLIPが捕捉する大域的な文脈情報とDINOv3が生成する局所的な詳細情報を効果的に融合させる大域-局所特徴協調融合戦略を開発し、高精度なセグメンテーション結果の生成を可能にする。6つの人気データセットを用いた大規模な実験により、本手法の優位性が実証され、様々な分割プロトコルと多様なシナリオにおいて一貫して最先端の性能を達成する。プロジェクトページはhttps://xavierjiezou.github.io/Co2S/で公開されている。
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.
PDF42January 7, 2026