Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): Erschließung des gesamten Potenzials für die Kartierung von Überflutungen
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
papers.authors: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
papers.abstract
Geo-Foundation-Modelle (GFMs) haben sich in verschiedenen nachgelagerten Anwendungen, einschließlich semantischer Segmentierung, Klassifizierung und Regressionsaufgaben, als wirksam erwiesen. Bei der Hochwasserkartierung mit dem Sen1Flood11-Datensatz als nachgelagerter Aufgabe gelingt es GFMs jedoch nicht, den Baseline-U-Net zu übertreffen, was eine Limitation der Modelle bei der Erfassung kritischer lokaler Nuancen aufzeigt. Um dieses Problem zu adressieren, stellen wir den Prithvi-Complementary Adaptive Fusion Encoder (CAFE) vor, der den vortrainierten Prithvi-GFM-Encoder mit einem parallelen CNN-Residualzweig integriert, der durch Convolutional Attention Modules (CAM) erweitert wird. Prithvi-CAFE ermöglicht eine schnelle und effiziente Feinabstimmung durch Adapter in Prithvi und führt eine Multi-Skalen- und Multi-Level-Fusion mit CNN-Merkmalen durch, um kritische lokale Details zu erfassen und gleichzeitig langreichweitige Abhängigkeiten beizubehalten. Wir erzielen state-of-the-art Ergebnisse auf zwei umfassenden Hochwasserkartierungs-Datensätzen: Sen1Flood11 und FloodPlanet. Auf den Sen1Flood11-Testdaten übertrifft Prithvi-CAFE (IoU 83,41) das ursprüngliche Prithvi (IoU 82,50) und andere bedeutende GFMs (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). Die Verbesserung ist auf dem Hold-out-Testgebiet noch deutlicher, wo Prithvi-CAFE einen IoU von 81,37 erreicht, verglichen mit dem Baseline-U-Net (70,57) und dem ursprünglichen Prithvi (72,42). Auf FloodPlanet übertrifft Prithvi-CAFE ebenfalls das Baseline-U-Net und andere GFMs und erzielt einen IoU von 64,70 im Vergleich zu U-Net (60,14), Terramind (62,33), DOFA (59,15) und Prithvi 2.0 (61,91). Unser vorgeschlagener, einfacher aber effektiver Prithvi-CAFE demonstriert ein großes Potenzial zur Verbesserung von Segmentierungsaufgaben, bei denen mehrkanalige und multimodale Daten komplementäre Informationen liefern und lokale Details entscheidend sind. Der Code ist unter https://github.com/Sk-2103/Prithvi-CAFE veröffentlicht.
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}