OlmoEarth: Modellizzazione Stabile di Immagini Latenti per l'Osservazione Terrestre Multimodale
OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
November 17, 2025
Autori: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema
cs.AI
Abstract
I dati di osservazione terrestre presentano una sfida unica: sono spaziali come le immagini, sequenziali come video o testo e altamente multimodali. Presentiamo OlmoEarth: un modello fondante multimodale e spazio-temporale che impiega una nuova formulazione di apprendimento auto-supervisionato, una strategia di mascheramento e una funzione di perdita progettati specificamente per il dominio dell'osservazione terrestre. OlmoEarth raggiunge prestazioni allo stato dell'arte rispetto ad altri 12 modelli fondanti in una varietà di benchmark di ricerca e compiti del mondo reale forniti da partner esterni. Nella valutazione degli embedding, OlmoEarth ottiene le migliori prestazioni in 15 su 24 compiti, mentre con il fine-tuning completo è il migliore in 19 su 29 compiti. Implementiamo OlmoEarth come backbone di una piattaforma end-to-end per la raccolta dati, l'etichettatura, l'addestramento e l'inferenza di modelli di osservazione terrestre. La Piattaforma OlmoEarth mette modelli fondanti all'avanguardia e potenti strumenti di gestione dati a disposizione di organizzazioni non-profit e ONG che lavorano per risolvere i problemi più grandi del mondo. Il codice sorgente di OlmoEarth, i dati di addestramento e i pesi pre-addestrati sono disponibili all'indirizzo https://github.com/allenai/olmoearth_pretrain.
English
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.