Prithvi-Complimentary Adaptive Fusion Encoder (CAFE) : libérer le potentiel complet de la cartographie des inondations
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
papers.authors: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
papers.abstract
Les modèles de fondation géospatiaux (GFM) ont démontré leur efficacité dans diverses applications en aval, incluant la segmentation sémantique, la classification et les tâches de régression. Cependant, dans le cas de la cartographie des inondations utilisant le jeu de données Sen1Flood11 comme tâche en aval, les GFM peinent à surpasser l'U-Net de référence, ce qui souligne la limitation du modèle à capturer des nuances locales critiques. Pour résoudre ce problème, nous présentons le Prithvi-Complementary Adaptive Fusion Encoder (CAFE), qui intègre l'encodeur pré-entraîné du GFM Prithvi avec une branche résiduelle CNN parallèle améliorée par des modules d'attention convolutionnelle (CAM). Prithvi-CAFE permet un réglage fin rapide et efficace via des adaptateurs dans Prithvi et effectue une fusion multi-échelle et multi-niveau avec les caractéristiques CNN, capturant ainsi les détails locaux essentiels tout en préservant les dépendances à longue portée. Nous obtenons des résultats state-of-the-art sur deux jeux de données complets de cartographie des inondations : Sen1Flood11 et FloodPlanet. Sur les données de test de Sen1Flood11, Prithvi-CAFE (IoU 83,41) surpasse le Prithvi original (IoU 82,50) et les autres GFM majeurs (TerraMind 82,90, DOFA 81,54, spectralGPT : 81,02). L'amélioration est encore plus marquée sur le site de test réservé, où Prithvi-CAFE atteint un IoU de 81,37 contre l'U-Net de référence (70,57) et le Prithvi original (72,42). Sur FloodPlanet, Prithvi-CAFE surpasse également l'U-Net de référence et les autres GFM, atteignant un IoU de 64,70 contre U-Net (60,14), Terramind (62,33), DOFA (59,15) et Prithvi 2.0 (61,91). Notre proposition Prithvi-CAFE, simple mais efficace, démontre un fort potentiel pour améliorer les tâches de segmentation où les données multi-canaux et multi-modales fournissent des informations complémentaires et où les détails locaux sont critiques. Le code est publié sur https://github.com/Sk-2103/Prithvi-CAFE.
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}