Het aanpassen van Vision Foundation-modellen voor robuuste cloudsegmentatie in Remote Sensing-beelden

Samenvatting

Wolkensegmentatie is een kritieke uitdaging in de interpretatie van remote sensing beelden, aangezien de nauwkeurigheid ervan direct van invloed is op de effectiviteit van daaropvolgende gegevensverwerking en -analyse. Onlangs hebben vision foundation modellen (VFM) krachtige generalisatiecapaciteiten aangetoond over verschillende visuele taken. In dit artikel presenteren we een parameter-efficiënte adaptieve benadering, genaamd Cloud-Adapter, ontworpen om de nauwkeurigheid en robuustheid van wolkensegmentatie te verbeteren. Onze methode maakt gebruik van een VFM die is voorgetraind op algemene domeingegevens, die bevroren blijft, waardoor extra training overbodig is. Cloud-Adapter bevat een lichtgewicht ruimtelijk perceptiemodule die aanvankelijk een convolutioneel neuraal netwerk (ConvNet) gebruikt om dichte ruimtelijke representaties te extraheren. Deze multiscale kenmerken worden vervolgens geaggregeerd en dienen als contextuele invoer voor een aanpassingsmodule, die de bevroren transformerlagen binnen de VFM moduleert. Experimentele resultaten tonen aan dat de Cloud-Adapter benadering, met slechts 0,6% van de trainbare parameters van de bevroren ruggengraat, aanzienlijke prestatieverbeteringen behaalt. Cloud-Adapter behaalt consequent state-of-the-art (SOTA) prestaties over een breed scala aan wolkensegmentatiedatasets van meerdere satellietbronnen, sensorsystemen, gegevensverwerkingsniveaus, landbedekkingsscenario's en annotatiegranulariteiten. We hebben de broncode en voorgetrainde modellen vrijgegeven op https://github.com/XavierJiezou/Cloud-Adapter ter ondersteuning van verder onderzoek.

English

Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Het aanpassen van Vision Foundation-modellen voor robuuste cloudsegmentatie in Remote Sensing-beelden

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Samenvatting

Summary

Support

Support