ChatPaper.aiChatPaper

Cryo-Bench : Évaluation des modèles fondamentaux pour les applications de la cryosphère

Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

March 2, 2026
Auteurs: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI

Résumé

Les modèles de fondation géospatiaux (GFM) ont été évalués sur diverses tâches d'observation de la Terre incluant de multiples domaines et ont démontré un fort potentiel pour produire des cartes fiables même avec des annotations éparses. Cependant, l'évaluation comparative des GFM pour les applications cryosphériques est restée limitée, principalement en raison du manque de jeux de données d'évaluation appropriés. Pour combler cette lacune, nous présentons Cryo-Bench, un benchmark conçu pour évaluer les performances des GFM sur les principales composantes cryosphériques. Cryo-Bench inclut les glaciers rocheux, les lacs glaciaires, la glace de mer et les fronts de vêlage, couvrant multiples capteurs et de vastes régions géographiques. Nous évaluons 14 GFM parallèlement à des modèles de référence UNet et ViT pour analyser leurs avantages, limites et stratégies d'utilisation optimales. Avec un encodeur gelé, UNet obtient le mIoU moyen le plus élevé de 66,38, suivi par TerraMind à 64,02 sur les cinq jeux de données d'évaluation inclus dans Cryo-Bench. En régime few-shot (10 % des données d'entrée), des GFM comme DOFA et TerraMind surpassent UNet, atteignant des scores mIoU de 59,53, 56,62 et 56,60 respectivement, contre 56,60 pour U-Net. Lors du réglage fin complet des GFM, nous observons des performances incohérentes entre les jeux de données et les modèles. Cependant, l'ajustement du taux d'apprentissage combiné au réglage fin améliore substantiellement les performances des GFM. Par exemple, l'évaluation sur deux jeux de données représentatifs (GLID et CaFFe) montre une amélioration relative moyenne de 12,77 %. Bien que leur données de pré-entraînement contiennent une représentation minimale de la cryosphère, les GFM présentent des capacités d'adaptation au domaine notables et produisent des résultats significatifs across les tâches. Sur la base de nos résultats, nous recommandons le réglage fin de l'encodeur avec optimisation des hyperparamètres pour obtenir les meilleures performances possibles, tout en utilisant des encodeurs gelés lorsque les utilisateurs ont besoin de résultats rapides sans expérimentation extensive. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).
PDF01March 4, 2026