プリトヴィ-補完的適応融合エンコーダ(CAFE):洪水氾濫マッピングの可能性を最大限に引き出す
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
著者: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
要旨
Geo-Foundation Models(GFM)は、セマンティックセグメンテーション、分類、回帰タスクなど、多様なダウンストリームアプリケーションにおいて有効性が実証されている。しかし、下流タスクとしてSen1Flood11データセットを用いた洪水マッピングの場合、GFMはベースラインのU-Netを凌駕することができず、重要な局所的なニュアンスを捉えるモデルの限界が浮き彫りとなった。この問題に対処するため、我々はPrithvi-Complementary Adaptive Fusion Encoder(CAFE)を提案する。これは、Prithvi GFMの事前学習済みエンコーダと、Convolutional Attention Modules(CAM)によって強化された並列CNN残差ブランチを統合するものである。Prithvi-CAFEは、Prithvi内のアダプターによる高速かつ効率的なファインチューニングを可能にし、CNN特徴量とのマルチスケール・マルチレベル融合を実行することで、長距離依存関係を保持しつつ重要な局所詳細を捉える。我々は、2つの包括的な洪水マッピングデータセット(Sen1Flood11とFloodPlanet)において、State-of-the-artの結果を達成した。Sen1Flood11テストデータでは、Prithvi-CAFE(IoU 83.41)は、元のPrithvi(IoU 82.50)や他の主要なGFM(TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02)を上回った。この改善は、ホールドアウトテストサイトにおいてさらに顕著で、Prithvi-CAFEはIoU 81.37を達成したのに対し、ベースラインU-Netは70.57、元のPrithviは72.42であった。FloodPlanetにおいても、Prithvi-CAFEはベースラインU-Netや他のGFMを凌駕し、U-Net(60.14)、Terramind(62.33)、DOFA(59.15)、Prithvi 2.0(61.91)に対してIoU 64.70を達成した。我々が提案するこのシンプルかつ効果的なPrithvi-CAFEは、マルチチャネルおよびマルチモーダルデータが相補的な情報を提供し、局所詳細が極めて重要となるセグメンテーションタスクの改善における強力な可能性を示している。コードはhttps://github.com/Sk-2103/Prithvi-CAFEで公開されている。
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}