ChatPaper.aiChatPaper

크라이오-벤치: 크라이오스피어 응용을 위한 파운데이션 모델 벤치마킹

Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

March 2, 2026
저자: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI

초록

지오파운데이션 모델(GFM)은 다양한 도메인을 포함한 여러 지구 관측 작업에서 평가되었으며, 희소한 레이블로도 신뢰할 수 있는 지도를 생성할 수 있는 강력한 잠재력을 입증했습니다. 그러나 빙권 응용 분야에 대한 GFM의 벤치마킹은 적절한 평가 데이터셋의 부족으로 인해 여전히 제한적입니다. 이러한 격차를 해소하기 위해 본 연구에서는 주요 빙권 구성 요소 전반에 걸친 GFM 성능을 평가하기 위해 컴파일된 벤치마크인 Cryo-Bench를 소개합니다. Cryo-Bench는 쇄설물 피복 빙하, 빙하호, 해빙, 그리고 빙하 분리면을 포함하며, 다중 센서와 광범위한 지리적 지역에 걸쳐 있습니다. 저희는 14개의 GFM과 UNet 및 ViT 기준 모델을 함께 평가하여 각각의 장점, 한계 및 최적 사용 전략을 평가했습니다. 고정 인코더를 사용할 때, UNet은 Cryo-Bench에 포함된 5개 평가 데이터셋에서 평균 mIoU 66.38로 가장 높은 성능을 보였으며, TerraMind가 64.02로 그 뒤를 이었습니다. 퓨샷 설정(10% 입력 데이터)에서는 DOFA 및 TerraMind와 같은 GFM이 UNet을 능가하며, 각각 mIoU 59.53, 56.62, 56.60을 기록했고, 이는 U-Net의 56.60과 비교됩니다. GFM을 완전히 파인튜닝할 때는 데이터셋과 모델 간에 일관되지 않은 성능을 관찰했습니다. 그러나 파인튜닝과 함께 학습률을 조정하면 GFM 성능이 크게 향상됩니다. 예를 들어, 두 가지 대표적인 데이터셋(GLID 및 CaFFe)에 대한 평가에서 평균 12.77%의 상대적 개선을 보여주었습니다. 사전 학습 데이터에 빙권 관련 표현이 최소한으로 포함되었음에도 불구하고, GFM은 주목할 만한 도메인 적응 능력을 보여주며 다양한 작업에서 의미 있는 결과를 생성합니다. 저희 연구 결과를 바탕으로, 가능한 최고의 성능을 달성하기 위해서는 하이퍼파라미터 최적화와 함께 인코더 파인튜닝을 권장하며, 사용자가 광범위한 실험 없이 빠른 결과가 필요할 때는 고정 인코더를 사용할 것을 제안합니다.
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).
PDF01March 4, 2026