Verso una Segmentazione Semi-Supervisionata Stabile nel Telerilevamento tramite Co-Guidance e Co-Fusion

Abstract

La segmentazione semantica semi-supervisionata di immagini di telerilevamento (RS) offre una soluzione promettente per alleviare l'onere dell'annotazione esaustiva, ma fondamentalmente incontra difficoltà con la deriva delle pseudo-etichette, un fenomeno in cui il bias di conferma porta all'accumulo di errori durante l'addestramento. In questo lavoro, proponiamo Co2S, un framework stabile per la segmentazione RS semi-supervisionata che fonde sinergicamente i priori di modelli vision-language e modelli auto-supervisionati. Nello specifico, costruiamo un'architettura eterogenea a doppio studente composta da due distinti modelli vision foundation basati su ViT, inizializzati con CLIP e DINOv3 pre-addestrati, per mitigare l'accumulo di errori e la deriva delle pseudo-etichette. Per incorporare efficacemente questi distinti priori, viene introdotto un meccanismo di co-guidanza semantica esplicita-implicita che utilizza embedding testuali e query apprendibili per fornire rispettivamente una guida a livello di classe esplicita e implicita, migliorando così congiuntamente la coerenza semantica. Inoltre, viene sviluppata una strategia di fusione collaborativa globale-locale delle feature per fondere efficacemente le informazioni contestuali globali catturate da CLIP con i dettagli locali prodotti da DINOv3, consentendo al modello di generare risultati di segmentazione altamente precisi. Esperimenti estesi su sei dataset popolari dimostrano la superiorità del metodo proposto, che raggiunge costantemente prestazioni all'avanguardia attraverso vari protocolli di partizione e scenari diversificati. La pagina del progetto è disponibile all'indirizzo https://xavierjiezou.github.io/Co2S/.

English

Semi-supervised remote sensing (RS) image semantic segmentation offers a promising solution to alleviate the burden of exhaustive annotation, yet it fundamentally struggles with pseudo-label drift, a phenomenon where confirmation bias leads to the accumulation of errors during training. In this work, we propose Co2S, a stable semi-supervised RS segmentation framework that synergistically fuses priors from vision-language models and self-supervised models. Specifically, we construct a heterogeneous dual-student architecture comprising two distinct ViT-based vision foundation models initialized with pretrained CLIP and DINOv3 to mitigate error accumulation and pseudo-label drift. To effectively incorporate these distinct priors, an explicit-implicit semantic co-guidance mechanism is introduced that utilizes text embeddings and learnable queries to provide explicit and implicit class-level guidance, respectively, thereby jointly enhancing semantic consistency. Furthermore, a global-local feature collaborative fusion strategy is developed to effectively fuse the global contextual information captured by CLIP with the local details produced by DINOv3, enabling the model to generate highly precise segmentation results. Extensive experiments on six popular datasets demonstrate the superiority of the proposed method, which consistently achieves leading performance across various partition protocols and diverse scenarios. Project page is available at https://xavierjiezou.github.io/Co2S/.

Verso una Segmentazione Semi-Supervisionata Stabile nel Telerilevamento tramite Co-Guidance e Co-Fusion

Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

Abstract

Support