Adaptación de Modelos de Base de Visión para una Segmentación en la Nube Robusta en Imágenes de Teledetección
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images
November 20, 2024
Autores: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI
Resumen
La segmentación de nubes es un desafío crítico en la interpretación de imágenes de teledetección, ya que su precisión impacta directamente en la efectividad del procesamiento y análisis de datos subsiguientes. Recientemente, los modelos de base visual (VFM) han demostrado poderosas capacidades de generalización en diversas tareas visuales. En este artículo, presentamos un enfoque adaptativo eficiente en parámetros, denominado Cloud-Adapter, diseñado para mejorar la precisión y robustez de la segmentación de nubes. Nuestro método aprovecha un VFM preentrenado en datos de dominio general, que permanece congelado, eliminando la necesidad de entrenamiento adicional. Cloud-Adapter incorpora un módulo de percepción espacial ligero que inicialmente utiliza una red neuronal convolucional (ConvNet) para extraer representaciones espaciales densas. Estas características a múltiples escalas se agregan y sirven como entradas contextuales a un módulo adaptativo, que modula las capas del transformador congeladas dentro del VFM. Los resultados experimentales demuestran que el enfoque Cloud-Adapter, utilizando solo el 0.6% de los parámetros entrenables de la columna vertebral congelada, logra ganancias de rendimiento sustanciales. Cloud-Adapter alcanza consistentemente un rendimiento de vanguardia (SOTA) en una amplia variedad de conjuntos de datos de segmentación de nubes de múltiples fuentes satelitales, series de sensores, niveles de procesamiento de datos, escenarios de cobertura terrestre y granularidades de anotación. Hemos publicado el código fuente y los modelos preentrenados en https://github.com/XavierJiezou/Cloud-Adapter para apoyar investigaciones futuras.
English
Cloud segmentation is a critical challenge in remote sensing image
interpretation, as its accuracy directly impacts the effectiveness of
subsequent data processing and analysis. Recently, vision foundation models
(VFM) have demonstrated powerful generalization capabilities across various
visual tasks. In this paper, we present a parameter-efficient adaptive
approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness
of cloud segmentation. Our method leverages a VFM pretrained on general domain
data, which remains frozen, eliminating the need for additional training.
Cloud-Adapter incorporates a lightweight spatial perception module that
initially utilizes a convolutional neural network (ConvNet) to extract dense
spatial representations. These multi-scale features are then aggregated and
serve as contextual inputs to an adapting module, which modulates the frozen
transformer layers within the VFM. Experimental results demonstrate that the
Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the
frozen backbone, achieves substantial performance gains. Cloud-Adapter
consistently attains state-of-the-art (SOTA) performance across a wide variety
of cloud segmentation datasets from multiple satellite sources, sensor series,
data processing levels, land cover scenarios, and annotation granularities. We
have released the source code and pretrained models at
https://github.com/XavierJiezou/Cloud-Adapter to support further research.Summary
AI-Generated Summary