Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): desbloqueando o potencial total para o mapeamento de inundação

Resumo

Os Modelos de Base Geoespaciais (GFMs) têm se mostrado eficazes em diversas aplicações subsequentes, incluindo tarefas de segmentação semântica, classificação e regressão. No entanto, no caso do mapeamento de inundações usando o conjunto de dados Sen1Flood11 como tarefa subsequente, os GFMs têm dificuldade em superar a U-Net de referência, destacando a limitação do modelo em capturar nuances locais críticas. Para resolver isso, apresentamos o Prithvi-Complementary Adaptive Fusion Encoder (CAFE), que integra o codificador pré-treinado do GFM Prithvi com um ramo residual de CNN paralelo aprimorado por Módulos de Atenção Convolucional (CAM). O Prithvi-CAFE permite um ajuste fino rápido e eficiente por meio de adaptadores no Prithvi e realiza uma fusão multiescala e multinível com características da CNN, capturando detalhes locais críticos enquanto preserva dependências de longo alcance. Alcançamos resultados de última geração em dois conjuntos de dados abrangentes de mapeamento de inundações: Sen1Flood11 e FloodPlanet. Nos dados de teste do Sen1Flood11, o Prithvi-CAFE (IoU 83,41) supera o Prithvi original (IoU 82,50) e outros GFMs principais (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). A melhoria é ainda mais pronunciada no local de teste retido, onde o Prithvi-CAFE atinge um IoU de 81,37 em comparação com a U-Net de referência (70,57) e o Prithvi original (72,42). No FloodPlanet, o Prithvi-CAFE também supera a U-Net de referência e outros GFMs, atingindo um IoU de 64,70 em comparação com a U-Net (60,14), Terramind (62,33), DOFA (59,15) e Prithvi 2.0 (61,91). Nosso Prithvi-CAFE, proposto de forma simples, mas eficaz, demonstra um forte potencial para melhorar tarefas de segmentação onde dados multiespectrais e multimodais fornecem informações complementares e os detalhes locais são críticos. O código foi disponibilizado em https://github.com/Sk-2103/Prithvi-CAFE.

English

Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}