MAESTRO : Autoencodeurs masqués pour les données d'observation de la Terre multimodales, multitemporelles et multispectrales
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
August 14, 2025
papers.authors: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier
cs.AI
papers.abstract
L'apprentissage auto-supervisé présente un grand potentiel pour la télédétection, mais les méthodes auto-supervisées standard doivent être adaptées aux caractéristiques uniques des données d'observation de la Terre. Nous faisons un pas dans cette direction en réalisant un benchmark complet des stratégies de fusion et des schémas de normalisation des cibles de reconstruction pour des données d'observation de la Terre multimodales, multitemporelles et multispectrales. Sur la base de nos résultats, nous proposons MAESTRO, une nouvelle adaptation du Masked Autoencoder, intégrant des stratégies de fusion optimisées et un schéma de normalisation des cibles sur mesure qui introduit un a priori spectral comme signal d'auto-supervision. Évalué sur quatre jeux de données d'observation de la Terre, MAESTRO établit un nouvel état de l'art pour les tâches qui reposent fortement sur la dynamique multitemporelle, tout en restant très compétitif pour les tâches dominées par une modalité mono-temporelle unique. Le code pour reproduire toutes nos expériences est disponible à l'adresse https://github.com/ignf/maestro.
English
Self-supervised learning holds great promise for remote sensing, but standard
self-supervised methods must be adapted to the unique characteristics of Earth
observation data. We take a step in this direction by conducting a
comprehensive benchmark of fusion strategies and reconstruction target
normalization schemes for multimodal, multitemporal, and multispectral Earth
observation data. Based on our findings, we propose MAESTRO, a novel adaptation
of the Masked Autoencoder, featuring optimized fusion strategies and a tailored
target normalization scheme that introduces a spectral prior as a
self-supervisory signal. Evaluated on four Earth observation datasets, MAESTRO
sets a new state-of-the-art on tasks that strongly rely on multitemporal
dynamics, while remaining highly competitive on tasks dominated by a single
mono-temporal modality. Code to reproduce all our experiments is available at
https://github.com/ignf/maestro.