UniverSat: Auflösungs- und modalitätsagnostische Transformer für die Erdbeobachtung

Zusammenfassung

Vision Transformer (ViT) dominieren die Computer Vision. Allerdings behindert ihre Abhängigkeit von starren Patch-Projektoren die Übertragung auf die Erdbeobachtung (EO), bei der Eingabemodalitäten, Skalen und Auflösungen stark variieren. Wir stellen UniverSat vor, ein ViT-ähnliches Rückgrat, das auf einem Universal Patch Encoder basiert, der Patches aus beliebigen räumlichen, spektralen und zeitlichen Auflösungen sowie von optischen und nicht-optischen Sensoren mit einem gemeinsamen Gewichtssatz in einen gemeinsamen Einbettungsraum abbildet. Dies ermöglicht das Training eines einzelnen Modells auf heterogenen multimodalen Korpora mittels Selbstüberwachung, was robuste, sensorunabhängige räumliche Merkmale liefert. Wir validieren diesen Ansatz mit starken Ergebnissen bei Klassifikations- und Segmentierungsaufgaben auf den standardmäßigen EO-Benchmarks von GeoBench, PANGEABench und SpectralEarth. Unser Code und unsere Modelle sind verfügbar unter https://github.com/gastruc/UniverSat.

English

Vision Transformers (ViT) dominate computer vision. However, their reliance on rigid patch projectors hinders transfer to Earth Observation (EO), where input modalities, scales, and resolutions vary widely. We introduce UniverSat, a ViT-style backbone built around a Universal Patch Encoder that maps patches from arbitrary spatial, spectral, and temporal resolutions, and from both optical and non-optical sensors, into a shared embedding space with a shared set of weights. This enables training a single model on heterogeneous multimodal corpora via self-supervision, yielding robust, sensor-agnostic spatial features. We validate this approach with strong results across classification and segmentation on standard EO benchmarks from GeoBench, PANGEABench, and SpectralEarth. Our code and models are available at https://github.com/gastruc/UniverSat.