ChatPaper.aiChatPaper

Adaptação de Modelos de Fundação de Visão para Segmentação Robusta de Nuvens em Imagens de Sensoriamento Remoto

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

November 20, 2024
Autores: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI

Resumo

A segmentação de nuvens é um desafio crítico na interpretação de imagens de sensoriamento remoto, pois sua precisão impacta diretamente a eficácia do processamento e análise de dados subsequentes. Recentemente, modelos de base visual (VFM) têm demonstrado poderosas capacidades de generalização em várias tarefas visuais. Neste artigo, apresentamos uma abordagem adaptativa eficiente em termos de parâmetros, denominada Cloud-Adapter, projetada para aprimorar a precisão e robustez da segmentação de nuvens. Nosso método aproveita um VFM pré-treinado em dados de domínio geral, que permanece congelado, eliminando a necessidade de treinamento adicional. O Cloud-Adapter incorpora um módulo leve de percepção espacial que inicialmente utiliza uma rede neural convolucional (ConvNet) para extrair representações espaciais densas. Esses recursos de múltiplas escalas são então agregados e servem como entradas contextuais para um módulo adaptativo, que modula as camadas do transformador congeladas dentro do VFM. Resultados experimentais demonstram que a abordagem Cloud-Adapter, utilizando apenas 0,6% dos parâmetros treináveis do espinha dorsal congelada, alcança ganhos de desempenho substanciais. O Cloud-Adapter consistentemente alcança desempenho de última geração (SOTA) em uma ampla variedade de conjuntos de dados de segmentação de nuvens de várias fontes de satélite, séries de sensores, níveis de processamento de dados, cenários de cobertura terrestre e granularidades de anotação. Disponibilizamos o código-fonte e os modelos pré-treinados em https://github.com/XavierJiezou/Cloud-Adapter para apoiar pesquisas futuras.
English
Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Summary

AI-Generated Summary

PDF42November 25, 2024