Cryo-Bench:氷圏応用のための基盤モデルベンチマーキング
Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications
March 2, 2026
著者: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
要旨
Geo-Foundation Models(GFM)は、複数のドメインを含む多様な地球観測タスクにおいて評価が行われ、ラベルが疎であっても信頼性の高いマップを生成する強力な可能性を示している。しかし、雪氷圏応用におけるGFMのベンチマーキングは、主に適切な評価データセットの不足により、限られたものにとどまっている。このギャップを埋めるため、我々は主要な雪氷圏構成要素にわたるGFMの性能を評価するために構築されたベンチマーク、Cryo-Benchを紹介する。Cryo-Benchは、岩礫に覆われた氷河、氷河湖、海氷、カービングフロントを含み、複数のセンサーと広範な地理的領域に及ぶ。14のGFMを、UNetおよびViTベースラインとともに評価し、それらの利点、限界、最適な使用戦略を評価した。エンコーダを凍結した場合、UNetはCryo-Benchに含まれる5つの評価データセットで平均mIoU 66.38%と最高値を達成し、TerraMindが64.02%で続いた。Few-shot設定(入力データの10%)では、DOFAやTerraMindなどのGFMがUNetを上回り、mIoUスコアはそれぞれ59.53%、56.62%となり、UNetの56.60%を比較した。GFMを完全にファインチューニングする場合、データセットとモデル間で性能に一貫性がないことが観察された。しかし、ファインチューニングとともに学習率を調整することで、GFMの性能は大幅に向上する。例えば、2つの代表的なデータセット(GLIDとCaFFe)での評価では、平均で12.77%の相対的改善が示された。GFMは事前学習データにおける雪氷圏の表現が最小限であるにもかかわらず、顕著なドメイン適応能力を示し、タスク間で有意義な結果を生成した。我々の知見に基づき、可能な限り最高の性能を達成するにはハイパーパラメータ最適化を伴うエンコーダのファインチューニングを推奨するが、ユーザーが広範な実験なしに迅速な結果を必要とする場合は凍結エンコーダを使用することを推奨する。(https://github.com/Sk-2103/Cryo-Bench{GitHub})
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).