ChatPaper.aiChatPaper

Cryo-Bench: Evaluación de Modelos Fundacionales para Aplicaciones en la Criósfera

Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

March 2, 2026
Autores: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI

Resumen

Los Modelos de Fundamentos Geoespaciales (GFM) han sido evaluados en diversas tareas de observación de la Tierra, incluyendo múltiples dominios, y han demostrado un gran potencial para producir mapas fiables incluso con etiquetas escasas. Sin embargo, la evaluación comparativa de los GFMs para aplicaciones criosféricas ha sido limitada, principalmente debido a la falta de conjuntos de datos de evaluación adecuados. Para abordar esta brecha, presentamos Cryo-Bench, un benchmark compilado para evaluar el rendimiento de los GFMs en componentes criosféricos clave. Cryo-Bench incluye glaciares cubiertos de detritos, lagos glaciares, hielo marino y frentes de desprendimiento, abarcando múltiples sensores y amplias regiones geográficas. Evaluamos 14 GFMs junto con líneas base de UNet y ViT para valorar sus ventajas, limitaciones y estrategias de uso óptimas. Con un codificador congelado, UNet logra el mIoU promedio más alto de 66.38, seguido de TerraMind con 64.02, en los cinco conjuntos de datos de evaluación incluidos en Cryo-Bench. En el entorno de pocos ejemplos (10% de datos de entrada), GFMs como DOFA y TerraMind superan a UNet, alcanzando puntuaciones mIoU de 59.53, 56.62 y 56.60, respectivamente, en comparación con el 56.60 de U-Net. Al ajustar completamente los GFMs, observamos un rendimiento inconsistente entre conjuntos de datos y modelos. Sin embargo, el ajuste de la tasa de aprendizaje junto con el fine-tuning mejora sustancialmente el rendimiento de los GFMs. Por ejemplo, la evaluación en dos conjuntos de datos representativos (GLID y CaFFe) muestra una mejora relativa promedio del 12.77%. A pesar de tener una representación mínima de la Criosfera en sus datos de preentrenamiento, los GFMs exhiben capacidades notables de adaptación de dominio y producen resultados significativos en diversas tareas. Con base en nuestros hallazgos, recomendamos el fine-tuning del codificador con optimización de hiperparámetros para lograr el mejor rendimiento posible, mientras que se deben usar codificadores congelados cuando los usuarios necesiten resultados rápidos sin experimentación extensiva. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).
PDF01March 4, 2026