안정적인 준지도 원격 감지 분할을 위한 공동 안내 및 공동 융합 접근법
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
December 28, 2025
저자: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI
초록
준지도 원격 탐사(RS) 영상 의미 분할은 방대한 주석 작업의 부담을 완화할 수 있는 유망한 솔루션을 제공하지만, 훈련 과정에서 확인 편향으로 인해 오류가 누적되는 현상인 의사 레이블 드리프트(pseudo-label drift) 문제를 근본적으로 겪고 있습니다. 본 연구에서는 시각-언어 모델과 자기 지도 모델의 사전 지식을 상호 보완적으로 융합하여 안정적인 준지도 RS 분할을 가능하게 하는 Co2S 프레임워크를 제안합니다. 구체적으로, 오류 누적과 의사 레이블 드리프트를 완화하기 위해 사전 훈련된 CLIP과 DINOv3로 초기화된 두 가지 다른 ViT 기반 시각 기초 모델로 구성된 이종 이중 학생(heterogeneous dual-student) 아키텍처를 구축합니다. 이러한 상이한 사전 지식을 효과적으로 통합하기 위해 텍스트 임베딩과 학습 가능한 쿼리를 각각 명시적 및 암묵적 클래스 수준 지침으로 활용하는 명시적-암묵적 의미 공동 안내(explicit-implicit semantic co-guidance) 메커니즘을 도입하여 의미 일관성을 공동으로 향상시킵니다. 더 나아가, CLIP이 포착한 전역 맥락 정보와 DINOv3가 생성한 지역적 세부 정보를 효과적으로 융합하기 위한 전역-지역 특징 협력 융합(global-local feature collaborative fusion) 전략을 개발하여 매우 정밀한 분할 결과를 생성할 수 있도록 합니다. 6개 인기 데이터셋에 대한 광범위한 실험을 통해 제안 방법의 우수성을 입증하였으며, 다양한 분할 프로토콜과 다양한 시나리오에서 일관되게 선도적인 성능을 달성하였습니다. 프로젝트 페이지는 https://xavierjiezou.github.io/Co2S/에서 확인할 수 있습니다.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.