Hacia una Segmentación Semi-Supervisada Estable en Teledetección mediante Co-Guía y Co-Fusión
Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
December 28, 2025
Autores: Yi Zhou, Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Jingming Chen, Congyan Lang, Tengfei Cao, Pin Tao, Yuanchun Shi
cs.AI
Resumen
La segmentación semántica de imágenes de teledetección (RS) semi-supervisada ofrece una solución prometedora para aliviar la carga de la anotación exhaustiva, pero se enfrenta fundamentalmente a la deriva de las pseudoetiquetas, un fenómeno en el que el sesgo de confirmación conduce a la acumulación de errores durante el entrenamiento. En este trabajo, proponemos Co2S, un marco de segmentación RS semi-supervisado estable que fusiona de forma sinérgica conocimientos previos de modelos de visión y lenguaje (VLM) y modelos auto-supervisados. Específicamente, construimos una arquitectura dual heterogénea que comprende dos modelos de visión base distintos basados en ViT, inicializados con CLIP y DINOv3 preentrenados, para mitigar la acumulación de errores y la deriva de pseudoetiquetas. Para incorporar efectivamente estos conocimientos previos distintos, se introduce un mecanismo de co-guiado semántico explícito-implícito que utiliza embeddings de texto y consultas aprendibles para proporcionar una guía a nivel de clase explícita e implícita, respectivamente, mejorando así conjuntamente la consistencia semántica. Además, se desarrolla una estrategia de fusión colaborativa de características globales-locales para fusionar efectivamente la información contextual global capturada por CLIP con los detalles locales producidos por DINOv3, permitiendo que el modelo genere resultados de segmentación altamente precisos. Experimentos exhaustivos en seis conjuntos de datos populares demuestran la superioridad del método propuesto, que logra consistentemente un rendimiento líder en diversos protocolos de división y escenarios diversos. La página del proyecto está disponible en https://xavierjiezou.github.io/Co2S/.
English
Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.