Cryo-Bench: Avaliação Comparativa de Modelos de Base para Aplicações na Criosfera

Resumo

Os Modelos de Fundação Geoespaciais (GFMs) foram avaliados em diversas tarefas de observação da Terra, abrangendo múltiplos domínios, e demonstraram forte potencial para produzir mapas confiáveis mesmo com etiquetas esparsas. No entanto, a avaliação comparativa de GFMs para aplicações na Criosfera tem sido limitada, principalmente devido à falta de conjuntos de dados de avaliação adequados. Para preencher esta lacuna, introduzimos o Cryo-Bench, um benchmark compilado para avaliar o desempenho de GFMs em componentes criosféricos fundamentais. O Cryo-Bench inclui glaciares cobertos por detritos, lagos glaciares, gelo marinho e frentes de desprendimento, abrangendo múltiplos sensores e amplas regiões geográficas. Avaliamos 14 GFMs juntamente com linhas de base UNet e ViT para avaliar as suas vantagens, limitações e estratégias de utilização ideais. Com um codificador congelado, a UNet alcança o mIoU médio mais alto de 66,38, seguida pela TerraMind com 64,02, nos cinco conjuntos de dados de avaliação incluídos no Cryo-Bench. No cenário de poucos exemplos (10% dos dados de entrada), GFMs como DOFA e TerraMind superam a UNet, alcançando pontuações mIoU de 59,53, 56,62 e 56,60, respetivamente, em comparação com os 56,60 da U-Net. Ao ajustar totalmente os GFMs, observamos um desempenho inconsistente entre conjuntos de dados e modelos. No entanto, o ajuste da taxa de aprendizagem juntamente com o fine-tuning melhora substancialmente o desempenho dos GFMs. Por exemplo, a avaliação em dois conjuntos de dados representativos (GLID e CaFFe) mostra uma melhoria relativa média de 12,77%. Apesar de terem uma representação mínima da Criosfera nos seus dados de pré-treinamento, os GFMs exibem capacidades notáveis de adaptação de domínio e produzem resultados significativos em várias tarefas. Com base nas nossas descobertas, recomendamos o fine-tuning do codificador com otimização de hiperparâmetros para obter o melhor desempenho possível, utilizando codificadores congelados quando os utilizadores necessitam de resultados rápidos sem experimentação extensiva. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).

English

Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).