ChatPaper.aiChatPaper

OlmoEarth: Modelagem Estável de Imagens Latentes para Observação da Terra Multimodal

OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

November 17, 2025
Autores: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema
cs.AI

Resumo

Os dados de observação da Terra apresentam um desafio único: são espaciais como imagens, sequenciais como vídeo ou texto e altamente multimodais. Apresentamos o OlmoEarth: um modelo de base multimodal e espaço-temporal que emprega uma nova formulação de aprendizado autossupervisionado, estratégia de mascaramento e função de perda, todos projetados para o domínio da observação da Terra. O OlmoEarth alcança um desempenho de última geração em comparação com outros 12 modelos de base em uma variedade de benchmarks de pesquisa e tarefas do mundo real de parceiros externos. Na avaliação de *embeddings*, o OlmoEarth alcança o melhor desempenho em 15 de 24 tarefas, e com o ajuste fino completo é o melhor em 19 de 29 tarefas. Implantamos o OlmoEarth como a espinha dorsal de uma plataforma de ponta a ponta para coleta de dados, rotulagem, treinamento e inferência de modelos de observação da Terra. A Plataforma OlmoEarth coloca modelos de base de fronteira e ferramentas poderosas de gerenciamento de dados nas mãos de organizações sem fins lucrativos e ONGs que trabalham para resolver os maiores problemas do mundo. O código-fonte do OlmoEarth, os dados de treinamento e os pesos pré-treinados estão disponíveis em https://github.com/allenai/olmoearth_pretrain.
English
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.
PDF102February 27, 2026