프리트비-상호보완적 적응형 융합 인코더(CAFE): 홍수 범람 매핑의 전체 잠재력 활용
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
저자: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
초록
지오 파운데이션 모델(GFM)은 의미 분할, 분류, 회귀 작업 등 다양한 다운스트림 애플리케이션에서 효과적인 것으로 입증되었습니다. 그러나 Sen1Flood11 데이터셋을 활용한 홍수 범람 지도 작성이라는 다운스트림 작업의 경우, GFM은 기준이 되는 U-Net을 능가하는 데 어려움을 보이며 중요한 지역적 뉘앙스를 포착하는 모델의 한계를 드러냈습니다. 이를 해결하기 위해 우리는 프리트비 GFM 사전 학습 인코더와 Convolutional Attention Module(CAM)으로 강화된 병렬 CNN 잔차 브랜치를 통합한 프리트비-상호보완적 적응형 융합 인코더(Prithvi-CAFE)를 제시합니다. 프리트비-CAFE는 어댑터를 통해 프리트비의 빠르고 효율적인 미세 조정을 가능하게 하며, CNN 특징과의 다중 규모, 다중 수준 융합을 수행하여 장거리 의존성을 보존하면서도 중요한 지역적 세부 사항을 포착합니다. 우리는 Sen1Flood11과 FloodPlanet이라는 두 가지 포괄적인 홍수 범람 지도 데이터셋에서 최첨단 결과를 달성했습니다. Sen1Flood11 테스트 데이터에서 프리트비-CAFE(IoU 83.41)는 원본 프리트비(IoU 82.50) 및 다른 주요 GFM들(TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02)을 능가했습니다. 이러한 개선 효과는 홀드아웃 테스트 사이트에서 더욱 두드러졌는데, 프리트비-CAFE는 기준 U-Net(70.57) 및 원본 프리트비(72.42)에 비해 81.37의 IoU를 달성했습니다. FloodPlanet에서도 프리트비-CAFE는 기준 U-Net 및 다른 GFM들을 능가하며, U-Net(60.14), Terramind(62.33), DOFA(59.15), 프리트비 2.0(61.91)에 비해 64.70의 IoU를 기록했습니다. 우리가 제안하는 간단하면서도 효과적인 프리트비-CAFE는 다중 채널 및 다중 모달 데이터가 상호보완적 정보를 제공하고 지역적 세부 사항이 중요한 분할 작업의 성능 향상에 강력한 잠재력을 보여줍니다. 코드는 https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}에 공개되어 있습니다.
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}