Codificador de Fusión Adaptativa Complementario Prithvi (CAFE): desbloqueando el potencial completo para la cartografía de inundaciones
Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
January 5, 2026
Autores: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
Resumen
Los Modelos de Fundación Geoespacial (GFM) han demostrado ser eficaces en diversas aplicaciones posteriores, incluyendo tareas de segmentación semántica, clasificación y regresión. Sin embargo, en el caso de la cartografía de inundaciones utilizando el conjunto de datos Sen1Flood11 como tarea posterior, los GFM tienen dificultades para superar a la U-Net de referencia, lo que pone de manifiesto la limitación del modelo para capturar matices locales críticos. Para abordar esto, presentamos Prithvi-Complementary Adaptive Fusion Encoder (CAFE), que integra el codificador preentrenado del GFM Prithvi con una rama residual de CNN paralela mejorada por Módulos de Atención Convolucional (CAM). Prithvi-CAFE permite un ajuste fino rápido y eficiente mediante adaptadores en Prithvi y realiza una fusión multiescala y multinivel con las características de la CNN, capturando detalles locales críticos mientras preserva las dependencias de largo alcance. Logramos resultados de vanguardia en dos conjuntos de datos exhaustivos de cartografía de inundaciones: Sen1Flood11 y FloodPlanet. En los datos de prueba de Sen1Flood11, Prithvi-CAFE (IoU 83.41) supera al Prithvi original (IoU 82.50) y a otros GFM principales (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). La mejora es aún más pronunciada en el sitio de prueba retenido, donde Prithvi-CAFE alcanza un IoU de 81.37 en comparación con la U-Net de referencia (70.57) y el Prithvi original (72.42). En FloodPlanet, Prithvi-CAFE también supera a la U-Net de referencia y a otros GFM, logrando un IoU de 64.70 frente a U-Net (60.14), Terramind (62.33), DOFA (59.15) y Prithvi 2.0 (61.91). Nuestro Prithvi-CAFE, propuesto como una solución simple pero efectiva, demuestra un gran potencial para mejorar las tareas de segmentación donde los datos multicanal y multimodales proporcionan información complementaria y los detalles locales son críticos. El código se ha publicado en https://github.com/Sk-2103/Prithvi-CAFE.
English
Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}