ChatPaper.aiChatPaper

Адаптация моделей основного зрения для надежной сегментации облаков в изображениях дистанционного зондирования.

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

November 20, 2024
Авторы: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI

Аннотация

Сегментация облаков является важной задачей в интерпретации изображений с помощью дистанционного зондирования, поскольку ее точность напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы зрения (VFM) продемонстрировали мощные обобщающие способности в различных визуальных задачах. В данной статье мы представляем параметрически эффективный адаптивный подход, названный Cloud-Adapter, разработанный для улучшения точности и надежности сегментации облаков. Наш метод использует VFM, предварительно обученную на данных общего назначения, которая остается замороженной, исключая необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который изначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные признаки затем агрегируются и служат контекстными входами для модуля адаптации, который модулирует замороженные трансформаторные слои в VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий всего лишь 0.6% обучаемых параметров замороженной основы, достигает существенного увеличения производительности. Cloud-Adapter последовательно достигает передовой производительности (SOTA) на широком спектре наборов данных по сегментации облаков из различных источников спутников, серий сенсоров, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы выпустили исходный код и предварительно обученные модели на https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.
English
Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Summary

AI-Generated Summary

PDF42November 25, 2024