ChatPaper.aiChatPaper

Adapter les modèles de base de vision pour une segmentation cloud robuste dans les images de télédétection

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

November 20, 2024
Auteurs: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI

Résumé

La segmentation des nuages est un défi critique dans l'interprétation d'images de télédétection, car sa précision a un impact direct sur l'efficacité du traitement et de l'analyse des données subséquentes. Récemment, les modèles de base de vision (VFM) ont démontré de puissantes capacités de généralisation à travers diverses tâches visuelles. Dans cet article, nous présentons une approche adaptative à faible nombre de paramètres, appelée Cloud-Adapter, conçue pour améliorer la précision et la robustesse de la segmentation des nuages. Notre méthode exploite un VFM pré-entraîné sur des données de domaine général, qui reste figé, éliminant ainsi le besoin d'un entraînement supplémentaire. Cloud-Adapter intègre un module de perception spatiale léger qui utilise initialement un réseau de neurones convolutionnel (ConvNet) pour extraire des représentations spatiales denses. Ces caractéristiques multi-échelles sont ensuite agrégées et servent de données contextuelles à un module d'adaptation, qui module les couches de transformateur figées au sein du VFM. Les résultats expérimentaux montrent que l'approche Cloud-Adapter, n'utilisant que 0,6 % des paramètres entraînables de l'épine dorsale figée, permet d'obtenir des gains de performances substantiels. Cloud-Adapter atteint de manière cohérente des performances de pointe (SOTA) sur une grande variété d'ensembles de données de segmentation des nuages provenant de multiples sources satellitaires, séries de capteurs, niveaux de traitement des données, scénarios de couverture terrestre et granularités d'annotation. Nous avons publié le code source et les modèles pré-entraînés sur https://github.com/XavierJiezou/Cloud-Adapter pour soutenir de futures recherches.
English
Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Summary

AI-Generated Summary

PDF42November 25, 2024