Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): раскрытие полного потенциала для картирования затопления при наводнениях
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
Авторы: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
Аннотация
Модели гео-основ (Geo-Foundation Models, GFMs) доказали свою эффективность в различных последующих приложениях, включая задачи семантической сегментации, классификации и регрессии. Однако в случае картирования наводнений с использованием набора данных Sen1Flood11 в качестве последующей задачи GFMs не превосходят базовую модель U-Net, что указывает на ограничение модели в захвате критически важных локальных особенностей. Для решения этой проблемы мы представляем Prithvi-Complementary Adaptive Fusion Encoder (CAFE), который интегрирует предобученный энкодер GFM Prithvi с параллельным остаточным ветвлением на основе CNN, усиленным модулями сверточной внимательности (Convolutional Attention Modules, CAM). Prithvi-CAFE позволяет проводить быструю и эффективную дообучку с помощью адаптеров в Prithvi и выполняет многомасштабное, многоуровневое слияние с признаками CNN, захватывая критически важные локальные детали при сохранении длинных дистанционных зависимостей. Мы достигли наилучших результатов на двух комплексных наборах данных для картирования наводнений: Sen1Flood11 и FloodPlanet. На тестовых данных Sen1Flood11 Prithvi-CAFE (IoU 83.41) превзошел оригинальный Prithvi (IoU 82.50) и другие основные GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). Улучшение еще более заметно на отложенном тестовом участке, где Prithvi-CAFE достиг IoU 81.37 по сравнению с базовым U-Net (70.57) и оригинальным Prithvi (72.42). На наборе данных FloodPlanet Prithvi-CAFE также превзошел базовый U-Net и другие GFMs, достигнув IoU 64.70 по сравнению с U-Net (60.14), Terramind (62.33), DOFA (59.15) и Prithvi 2.0 (61.91). Наша предлагаемая простая, но эффективная архитектура Prithvi-CAFE демонстрирует значительный потенциал для улучшения задач сегментации, где многоканальные и многомодальные данные предоставляют дополнительную информацию, а локальные детали имеют критическое значение. Код доступен по адресу: https://github.com/Sk-2103/Prithvi-CAFE.
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}