Cryo-Bench: Тестирование базовых моделей для приложений в криосфере
Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications
March 2, 2026
Авторы: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
Аннотация
Модели геопространственных основ (Geo-Foundation Models, GFMs) были оценены на разнообразных задачах дистанционного зондирования Земли, включая несколько предметных областей, и продемонстрировали значительный потенциал для создания надежных карт даже при наличии разреженных размеченных данных. Однако тестирование GFMs для криосферных приложений до сих пор было ограниченным, в основном из-за отсутствия подходящих наборов данных для оценки. Чтобы восполнить этот пробел, мы представляем Cryo-Bench — эталонный набор данных, созданный для оценки производительности GFMs по ключевым компонентам криосферы. Cryo-Bench включает задернованные ледники, ледниковые озера, морской лед и линии откола айсбергов, охватывая данные с различных сенсоров и обширные географические регионы. Мы оцениваем 14 моделей GFMs вместе с базовыми моделями UNet и ViT, чтобы определить их преимущества, ограничения и оптимальные стратегии использования. При замороженном энкодере UNet достигает наивысшего среднего mIoU в 66.38, за ним следует TerraMind с показателем 64.02 на пяти наборах данных для оценки, входящих в Cryo-Bench. В условиях обучения с малым количеством данных (10% входных данных) такие GFMs, как DOFA и TerraMind, превосходят UNet, достигая показателей mIoU 59.53, 56.62 и 56.60 соответственно, по сравнению с 56.60 у U-Net. При полной дообучке GFMs мы наблюдаем нестабильную производительность across наборами данных и моделями. Однако настройка скорости обучения вместе с дообучением существенно улучшает производительность GFMs. Например, оценка на двух репрезентативных наборах данных (GLID и CaFFe) показывает среднее относительное улучшение на 12.77%. Несмотря на минимальное представление данных по криосфере в их предварительно обученных данных, GFMs демонстрируют заметные способности к адаптации к домену и дают осмысленные результаты across задачами. На основе наших выводов мы рекомендуем тонкую настройку энкодера с оптимизацией гиперпараметров для достижения наилучшей возможной производительности, используя при этом замороженные энкодеры, когда пользователям нужны быстрые результаты без проведения обширных экспериментов. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).