OlmoEarth : Modélisation d'Image Latente Stable pour l'Observation Multimodale de la Terre
OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
November 17, 2025
papers.authors: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema
cs.AI
papers.abstract
Les données d'observation de la Terre présentent un défi unique : elles sont spatiales comme les images, séquentielles comme la vidéo ou le texte, et hautement multimodales. Nous présentons OlmoEarth : un modèle fondateur multimodal spatio-temporel qui utilise une nouvelle formulation d'apprentissage auto-supervisé, une stratégie de masquage et une fonction de perte conçus spécifiquement pour le domaine de l'observation terrestre. OlmoEarth obtient des performances de pointe par rapport à 12 autres modèles fondateurs sur divers benchmarks de recherche et tâches du monde réel provenant de partenaires externes. Lors de l'évaluation des embeddings, OlmoEarth obtient les meilleures performances sur 15 des 24 tâches, et avec un ajustement fin complet, il est le meilleur sur 19 des 29 tâches. Nous déployons OlmoEarth comme épine dorsale d'une plateforme de bout en bout pour la collecte, l'étiquetage, l'entraînement et l'inférence des modèles d'observation de la Terre. La Plateforme OlmoEarth met des modèles fondateurs de pointe et des outils puissants de gestion des données entre les mains des organisations à but non lucratif et des ONG qui travaillent à résoudre les plus grands problèmes mondiaux. Le code source, les données d'entraînement et les poids pré-entraînés d'OlmoEarth sont disponibles à l'adresse https://github.com/allenai/olmoearth_pretrain.
English
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.