MAESTRO: Autoencoder Maschera per Dati di Osservazione Terrestre Multimodali, Multitemporali e Multispettrali
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
August 14, 2025
Autori: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier
cs.AI
Abstract
L'apprendimento self-supervised rappresenta una grande promessa per il telerilevamento, ma i metodi self-supervised standard devono essere adattati alle caratteristiche uniche dei dati di osservazione terrestre. Facciamo un passo in questa direzione conducendo un benchmark completo delle strategie di fusione e degli schemi di normalizzazione degli obiettivi di ricostruzione per dati di osservazione terrestre multimodali, multitemporali e multispettrali. Sulla base dei nostri risultati, proponiamo MAESTRO, un nuovo adattamento del Masked Autoencoder, che include strategie di fusione ottimizzate e uno schema di normalizzazione degli obiettivi personalizzato che introduce un priore spettrale come segnale di auto-supervisione. Valutato su quattro dataset di osservazione terrestre, MAESTRO stabilisce un nuovo stato dell'arte per compiti che si basano fortemente sulle dinamiche multitemporali, rimanendo altamente competitivo per compiti dominati da una singola modalità mono-temporale. Il codice per riprodurre tutti i nostri esperimenti è disponibile all'indirizzo https://github.com/ignf/maestro.
English
Self-supervised learning holds great promise for remote sensing, but standard
self-supervised methods must be adapted to the unique characteristics of Earth
observation data. We take a step in this direction by conducting a
comprehensive benchmark of fusion strategies and reconstruction target
normalization schemes for multimodal, multitemporal, and multispectral Earth
observation data. Based on our findings, we propose MAESTRO, a novel adaptation
of the Masked Autoencoder, featuring optimized fusion strategies and a tailored
target normalization scheme that introduces a spectral prior as a
self-supervisory signal. Evaluated on four Earth observation datasets, MAESTRO
sets a new state-of-the-art on tasks that strongly rely on multitemporal
dynamics, while remaining highly competitive on tasks dominated by a single
mono-temporal modality. Code to reproduce all our experiments is available at
https://github.com/ignf/maestro.