MAESTRO: Maskierte AutoEncoder für multimodale, multitemporale und multispektrale Erdbeobachtungsdaten
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
August 14, 2025
papers.authors: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier
cs.AI
papers.abstract
Selbstüberwachtes Lernen birgt großes Potenzial für die Fernerkundung, doch müssen Standardmethoden des selbstüberwachten Lernens an die einzigartigen Eigenschaften von Erdbeobachtungsdaten angepasst werden. Wir gehen in diese Richtung, indem wir eine umfassende Benchmark von Fusionsstrategien und Normalisierungsschemata für Rekonstruktionsziele für multimodale, multitemporale und multispektrale Erdbeobachtungsdaten durchführen. Basierend auf unseren Erkenntnissen schlagen wir MAESTRO vor, eine neuartige Anpassung des Masked Autoencoder, die optimierte Fusionsstrategien und ein maßgeschneidertes Normalisierungsschema für Rekonstruktionsziele beinhaltet, das ein spektrales Prior als selbstüberwachtes Signal einführt. Evaluiert auf vier Erdbeobachtungsdatensätzen setzt MAESTRO einen neuen State-of-the-art bei Aufgaben, die stark auf multitemporale Dynamiken angewiesen sind, während es bei Aufgaben, die von einer einzelnen mono-temporalen Modalität dominiert werden, äußerst wettbewerbsfähig bleibt. Der Code zur Reproduktion aller unserer Experimente ist unter https://github.com/ignf/maestro verfügbar.
English
Self-supervised learning holds great promise for remote sensing, but standard
self-supervised methods must be adapted to the unique characteristics of Earth
observation data. We take a step in this direction by conducting a
comprehensive benchmark of fusion strategies and reconstruction target
normalization schemes for multimodal, multitemporal, and multispectral Earth
observation data. Based on our findings, we propose MAESTRO, a novel adaptation
of the Masked Autoencoder, featuring optimized fusion strategies and a tailored
target normalization scheme that introduces a spectral prior as a
self-supervisory signal. Evaluated on four Earth observation datasets, MAESTRO
sets a new state-of-the-art on tasks that strongly rely on multitemporal
dynamics, while remaining highly competitive on tasks dominated by a single
mono-temporal modality. Code to reproduce all our experiments is available at
https://github.com/ignf/maestro.