Cryo-Bench: Benchmarking von Foundation Models für Kryosphären-Anwendungen
Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications
March 2, 2026
Autoren: Saurabh Kaushik, Lalit Maurya, Beth Tellman
cs.AI
Zusammenfassung
Geo-Foundation-Modelle (GFMs) wurden für verschiedene Erdbeobachtungsaufgaben, einschließlich mehrerer Domänen, evaluiert und haben ein starkes Potenzial gezeigt, selbst mit spärlichen Labels zuverlässige Karten zu erzeugen. Das Benchmarking von GFMs für Kryosphären-Anwendungen war jedoch bisher begrenzt, hauptsächlich aufgrund des Mangels an geeigneten Evaluierungsdatensätzen. Um diese Lücke zu schließen, stellen wir Cryo-Bench vor, einen Benchmark, der zusammengestellt wurde, um die Leistung von GFMs für wichtige kryosphärische Komponenten zu bewerten. Cryo-Bench umfasst debris-bedeckte Gletscher, Gletscherseen, Meereis und Kalbungsfronten, die mehrere Sensoren und große geografische Regionen abdecken. Wir evaluieren 14 GFMs zusammen mit UNet- und ViT-Baselines, um ihre Vorteile, Grenzen und optimalen Nutzungsstrategien zu bewerten. Mit einem eingefrorenen Encoder erzielt UNet den höchsten durchschnittlichen mIoU von 66,38, gefolgt von TerraMind mit 64,02 über die fünf in Cryo-Bench enthaltenen Evaluierungsdatensätze. Im Few-Shot-Setting (10 % der Eingabedaten) übertreffen GFMs wie DOFA und TerraMind UNet und erreichen mIoU-Werte von 59,53, 56,62 bzw. 56,60, verglichen mit 56,60 von U-Net. Bei der vollständigen Feinabstimmung von GFMs beobachten wir uneinheitliche Leistungen über Datensätze und Modelle hinweg. Die gleichzeitige Optimierung der Lernrate zusammen mit der Feinabstimmung verbessert die GFM-Leistung jedoch erheblich. Beispielsweise zeigt die Auswertung auf zwei repräsentativen Datensätzen (GLID und CaFFe) eine durchschnittliche relative Verbesserung von 12,77 %. Obwohl die Kryosphäre in ihren Vortrainingsdaten minimal repräsentiert ist, zeigen GFMs bemerkenswerte Domänenanpassungsfähigkeiten und liefern aussagekräftige Ergebnisse über verschiedene Aufgaben hinweg. Basierend auf unseren Ergebnissen empfehlen wir eine Encoder-Feinabstimmung mit Hyperparameter-Optimierung, um die bestmögliche Leistung zu erzielen, während eingefrorene Encoder zu verwenden sind, wenn Benutzer schnelle Ergebnisse ohne umfangreiche Experimente benötigen. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
English
Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce Cryo-Bench, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of 66.38, followed by TerraMind at 64.02 across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of 59.53, 56.62, and 56.60, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of 12.77\%. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(https://github.com/Sk-2103/Cryo-Bench{GitHub}).