Het aanpassen van Vision Foundation-modellen voor robuuste cloudsegmentatie in Remote Sensing-beelden
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images
November 20, 2024
Auteurs: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI
Samenvatting
Wolkensegmentatie is een kritieke uitdaging in de interpretatie van remote sensing beelden, aangezien de nauwkeurigheid ervan direct van invloed is op de effectiviteit van daaropvolgende gegevensverwerking en -analyse. Onlangs hebben vision foundation modellen (VFM) krachtige generalisatiecapaciteiten aangetoond over verschillende visuele taken. In dit artikel presenteren we een parameter-efficiënte adaptieve benadering, genaamd Cloud-Adapter, ontworpen om de nauwkeurigheid en robuustheid van wolkensegmentatie te verbeteren. Onze methode maakt gebruik van een VFM die is voorgetraind op algemene domeingegevens, die bevroren blijft, waardoor extra training overbodig is. Cloud-Adapter bevat een lichtgewicht ruimtelijk perceptiemodule die aanvankelijk een convolutioneel neuraal netwerk (ConvNet) gebruikt om dichte ruimtelijke representaties te extraheren. Deze multiscale kenmerken worden vervolgens geaggregeerd en dienen als contextuele invoer voor een aanpassingsmodule, die de bevroren transformerlagen binnen de VFM moduleert. Experimentele resultaten tonen aan dat de Cloud-Adapter benadering, met slechts 0,6% van de trainbare parameters van de bevroren ruggengraat, aanzienlijke prestatieverbeteringen behaalt. Cloud-Adapter behaalt consequent state-of-the-art (SOTA) prestaties over een breed scala aan wolkensegmentatiedatasets van meerdere satellietbronnen, sensorsystemen, gegevensverwerkingsniveaus, landbedekkingsscenario's en annotatiegranulariteiten. We hebben de broncode en voorgetrainde modellen vrijgegeven op https://github.com/XavierJiezou/Cloud-Adapter ter ondersteuning van verder onderzoek.
English
Cloud segmentation is a critical challenge in remote sensing image
interpretation, as its accuracy directly impacts the effectiveness of
subsequent data processing and analysis. Recently, vision foundation models
(VFM) have demonstrated powerful generalization capabilities across various
visual tasks. In this paper, we present a parameter-efficient adaptive
approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness
of cloud segmentation. Our method leverages a VFM pretrained on general domain
data, which remains frozen, eliminating the need for additional training.
Cloud-Adapter incorporates a lightweight spatial perception module that
initially utilizes a convolutional neural network (ConvNet) to extract dense
spatial representations. These multi-scale features are then aggregated and
serve as contextual inputs to an adapting module, which modulates the frozen
transformer layers within the VFM. Experimental results demonstrate that the
Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the
frozen backbone, achieves substantial performance gains. Cloud-Adapter
consistently attains state-of-the-art (SOTA) performance across a wide variety
of cloud segmentation datasets from multiple satellite sources, sensor series,
data processing levels, land cover scenarios, and annotation granularities. We
have released the source code and pretrained models at
https://github.com/XavierJiezou/Cloud-Adapter to support further research.Summary
AI-Generated Summary