Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): sbloccare il potenziale completo per la mappatura delle inondazioni

Abstract

I modelli geo-fondamentali (GFM) si sono dimostrati efficaci in varie applicazioni downstream, tra cui la segmentazione semantica, la classificazione e i task di regressione. Tuttavia, nel caso del flood mapping utilizzando il dataset Sen1Flood11 come task downstream, i GFM faticano a superare la U-Net di baseline, evidenziando la limitazione del modello nel catturare le sfumature locali critiche. Per affrontare questo problema, presentiamo Prithvi-Complementary Adaptive Fusion Encoder (CAFE), che integra l'encoder pre-addestrato del GFM Prithvi con un ramo residuo CNN parallelo potenziato da moduli di attenzione convoluzionale (CAM). Prithvi-CAFE consente un fine-tuning rapido ed efficiente attraverso adattatori in Prithvi ed esegue una fusione multi-scala e multi-livello con le feature CNN, catturando i dettagli locali critici preservando al contempo le dipendenze a lungo raggio. Otteniamo risultati all'avanguardia su due dataset completi di flood mapping: Sen1Flood11 e FloodPlanet. Sui dati di test di Sen1Flood11, Prithvi-CAFE (IoU 83.41) supera il Prithvi originale (IoU 82.50) e altri principali GFM (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). Il miglioramento è ancora più marcato sul sito di test hold-out, dove Prithvi-CAFE raggiunge un IoU di 81.37 rispetto alla U-Net baseline (70.57) e al Prithvi originale (72.42). Su FloodPlanet, Prithvi-CAFE supera anch'esso la U-Net baseline e altri GFM, raggiungendo un IoU di 64.70 rispetto a U-Net (60.14), Terramind (62.33), DOFA (59.15) e Prithvi 2.0 (61.91). Il nostro Prithvi-CAFE, semplice ma efficace, dimostra un forte potenziale per migliorare i task di segmentazione in cui dati multi-canale e multi-modali forniscono informazioni complementari e i dettagli locali sono critici. Il codice è rilasciato su https://github.com/Sk-2103/Prithvi-CAFE.

English

Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}

Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): sbloccare il potenziale completo per la mappatura delle inondazioni

Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping

Abstract

Support