Anpassung von Vision-Grundlagenmodellen für robuste Cloud-Segmentierung in Fernerkundungsbildern
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images
November 20, 2024
Autoren: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI
Zusammenfassung
Die Segmentierung von Wolken ist eine entscheidende Herausforderung bei der Interpretation von Fernerkundungsbildern, da ihre Genauigkeit direkt die Effektivität der nachfolgenden Datenverarbeitung und -analyse beeinflusst. In letzter Zeit haben Vision-Grundlagenmodelle (VGM) leistungsstarke Verallgemeinerungsfähigkeiten über verschiedene visuelle Aufgaben hinweg gezeigt. In diesem Artikel stellen wir einen parameter-effizienten adaptiven Ansatz namens Cloud-Adapter vor, der darauf abzielt, die Genauigkeit und Robustheit der Wolkensegmentierung zu verbessern. Unsere Methode nutzt ein VGM, das auf allgemeinen Domänendaten vortrainiert ist und eingefroren bleibt, was zusätzliches Training überflüssig macht. Cloud-Adapter integriert ein leichtgewichtiges räumliches Wahrnehmungsmodul, das zunächst ein Convolutional Neural Network (ConvNet) verwendet, um dichte räumliche Repräsentationen zu extrahieren. Diese mehrskaligen Merkmale werden dann aggregiert und dienen als kontextuelle Eingaben für ein Anpassungsmodul, das die eingefrorenen Transformer-Schichten innerhalb des VGM moduliert. Experimentelle Ergebnisse zeigen, dass der Cloud-Adapter-Ansatz, der nur 0,6% der trainierbaren Parameter des eingefrorenen Backbone verwendet, signifikante Leistungssteigerungen erzielt. Cloud-Adapter erreicht konsistent eine State-of-the-Art (SOTA)-Leistung über eine Vielzahl von Wolkensegmentierungsdatensätzen aus verschiedenen Satellitenquellen, Sensorenserien, Datenverarbeitungsebenen, Landbedeckungsszenarien und Annotierungsgranularitäten. Wir haben den Quellcode und die vortrainierten Modelle unter https://github.com/XavierJiezou/Cloud-Adapter veröffentlicht, um weitere Forschung zu unterstützen.
English
Cloud segmentation is a critical challenge in remote sensing image
interpretation, as its accuracy directly impacts the effectiveness of
subsequent data processing and analysis. Recently, vision foundation models
(VFM) have demonstrated powerful generalization capabilities across various
visual tasks. In this paper, we present a parameter-efficient adaptive
approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness
of cloud segmentation. Our method leverages a VFM pretrained on general domain
data, which remains frozen, eliminating the need for additional training.
Cloud-Adapter incorporates a lightweight spatial perception module that
initially utilizes a convolutional neural network (ConvNet) to extract dense
spatial representations. These multi-scale features are then aggregated and
serve as contextual inputs to an adapting module, which modulates the frozen
transformer layers within the VFM. Experimental results demonstrate that the
Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the
frozen backbone, achieves substantial performance gains. Cloud-Adapter
consistently attains state-of-the-art (SOTA) performance across a wide variety
of cloud segmentation datasets from multiple satellite sources, sensor series,
data processing levels, land cover scenarios, and annotation granularities. We
have released the source code and pretrained models at
https://github.com/XavierJiezou/Cloud-Adapter to support further research.Summary
AI-Generated Summary