К стабильной полуавтоматической сегментации данных дистанционного зондирования с помощью совместного руководства и совместного слияния
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
December 28, 2025
Авторы: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI
Аннотация
Полуавтоматическая семантическая сегментация изображений дистанционного зондирования (ДЗ) предлагает перспективное решение для снижения трудоемкости исчерпывающей разметки, однако она фундаментально сталкивается с дрейфом псевдометок — явлением, когда ошибки накапливаются в процессе обучения из-за confirmation bias. В данной работе мы предлагаем Co2S, стабильную полуавтоматическую框架 сегментации ДЗ, которая синергетически объединяет априорные знания моделей «визуальный язык» и самообучающихся моделей. В частности, мы создаем гетерогенную архитектуру с двумя студентами, состоящую из двух различных базовых визуальных моделей на основе ViT, инициализированных предобученными CLIP и DINOv3, чтобы смягчить накопление ошибок и дрейф псевдометок. Для эффективного включения этих различных априорных знаний вводится механизм совместного явно-неявного семантического руководства, который использует текстовые эмбеддинги и обучаемые запросы для обеспечения явного и неявного руководства на уровне классов соответственно, что совместно повышает семантическую согласованность. Кроме того, разработана стратегия совместного слияния глобально-локальных признаков для эффективного объединения глобальной контекстной информации, захватываемой CLIP, с локальными деталями, производимыми DINOv3, что позволяет модели генерировать высокоточные результаты сегментации. Многочисленные эксперименты на шести популярных наборах данных демонстрируют превосходство предложенного метода, который стабильно достигает ведущей производительности при различных протоколах разбиения и в разнообразных сценариях. Страница проекта доступна по адресу https://xavierjiezou.github.io/Co2S/.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.