ChatPaper.aiChatPaper

Anpassung von Vision-Grundlagenmodellen für robuste Cloud-Segmentierung in Fernerkundungsbildern

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

November 20, 2024
Autoren: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI

Zusammenfassung

Die Segmentierung von Wolken ist eine entscheidende Herausforderung bei der Interpretation von Fernerkundungsbildern, da ihre Genauigkeit direkt die Effektivität der nachfolgenden Datenverarbeitung und -analyse beeinflusst. In letzter Zeit haben Vision-Grundlagenmodelle (VGM) leistungsstarke Verallgemeinerungsfähigkeiten über verschiedene visuelle Aufgaben hinweg gezeigt. In diesem Artikel stellen wir einen parameter-effizienten adaptiven Ansatz namens Cloud-Adapter vor, der darauf abzielt, die Genauigkeit und Robustheit der Wolkensegmentierung zu verbessern. Unsere Methode nutzt ein VGM, das auf allgemeinen Domänendaten vortrainiert ist und eingefroren bleibt, was zusätzliches Training überflüssig macht. Cloud-Adapter integriert ein leichtgewichtiges räumliches Wahrnehmungsmodul, das zunächst ein Convolutional Neural Network (ConvNet) verwendet, um dichte räumliche Repräsentationen zu extrahieren. Diese mehrskaligen Merkmale werden dann aggregiert und dienen als kontextuelle Eingaben für ein Anpassungsmodul, das die eingefrorenen Transformer-Schichten innerhalb des VGM moduliert. Experimentelle Ergebnisse zeigen, dass der Cloud-Adapter-Ansatz, der nur 0,6% der trainierbaren Parameter des eingefrorenen Backbone verwendet, signifikante Leistungssteigerungen erzielt. Cloud-Adapter erreicht konsistent eine State-of-the-Art (SOTA)-Leistung über eine Vielzahl von Wolkensegmentierungsdatensätzen aus verschiedenen Satellitenquellen, Sensorenserien, Datenverarbeitungsebenen, Landbedeckungsszenarien und Annotierungsgranularitäten. Wir haben den Quellcode und die vortrainierten Modelle unter https://github.com/XavierJiezou/Cloud-Adapter veröffentlicht, um weitere Forschung zu unterstützen.
English
Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Summary

AI-Generated Summary

PDF42November 25, 2024