Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): het ontsluiten van het volledige potentieel voor kartering van overstromingsgebieden
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
Auteurs: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
Samenvatting
Geo-Foundation Models (GFM's) hebben hun effectiviteit bewezen in diverse downstream-toepassingen, zoals semantische segmentatie, classificatie- en regressietaken. Bij het in kaart brengen van overstromingen met de Sen1Flood11-dataset als downstream-taak, slagen GFM's er echter niet in om de baseline U-Net te overtreffen, wat de beperking van het model aantoont in het vastleggen van kritieke lokale nuances. Om dit aan te pakken, presenteren we de Prithvi-Complementary Adaptive Fusion Encoder (CAFE), die de voorgetrainde Prithvi GFM-encoder integreert met een parallelle CNN-residualtak die is verbeterd met Convolutional Attention Modules (CAM). Prithvi-CAFE maakt snelle en efficiënte fine-tuning mogelijk via adapters in Prithvi en voert multi-schaal, multi-level fusie uit met CNN-features, waarbij kritieke lokale details worden vastgelegd terwijl lange-afstandsafhankelijkheden behouden blijven. We behalen state-of-the-art resultaten op twee uitgebreide overstromingskaartdatasets: Sen1Flood11 en FloodPlanet. Op de Sen1Flood11-testdata presteert Prithvi-CAFE (IoU 83,41) beter dan de originele Prithvi (IoU 82,50) en andere grote GFM's (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). De verbetering is nog duidelijker op de hold-out testlocatie, waar Prithvi-CAFE een IoU behaalt van 81,37 vergeleken met de baseline U-Net (70,57) en de originele Prithvi (72,42). Op FloodPlanet overtreft Prithvi-CAFE eveneens de baseline U-Net en andere GFM's, met een IoU van 64,70 tegenover U-Net (60,14), Terramind (62,33), DOFA (59,15) en Prithvi 2.0 (61,91). Onze voorgestelde, eenvoudige maar effectieve Prithvi-CAFE toont sterk potentieel voor het verbeteren van segmentatietaken waarbij multi-channel en multi-modale data complementaire informatie bieden en lokale details cruciaal zijn. De code is vrijgegeven op https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}