ChatPaper.aiChatPaper

OlmoEarth: Modelado Estable de Imágenes Latentes para la Observación Terrestre Multimodal

OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

November 17, 2025
Autores: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema
cs.AI

Resumen

Los datos de observación terrestre presentan un desafío único: son espaciales como las imágenes, secuenciales como el video o el texto, y altamente multimodales. Presentamos OlmoEarth: un modelo base multimodal y espacio-temporal que emplea una novedosa formulación de aprendizaje autosupervisado, estrategia de enmascaramiento y función de pérdida, todos diseñados específicamente para el dominio de la observación terrestre. OlmoEarth logra un rendimiento de vanguardia en comparación con otros 12 modelos base, evaluado en diversos puntos de referencia de investigación y tareas del mundo real de socios externos. En la evaluación de *embeddings*, OlmoEarth alcanza el mejor rendimiento en 15 de 24 tareas, y con ajuste fino completo es el mejor en 19 de 29 tareas. Desplegamos OlmoEarth como la columna vertebral de una plataforma integral para la recolección, etiquetado, entrenamiento e inferencia de modelos de observación terrestre. La Plataforma OlmoEarth pone modelos base de frontera y potentes herramientas de gestión de datos en manos de organizaciones sin fines de lucro y ONG que trabajan para resolver los problemas más grandes del mundo. El código fuente, los datos de entrenamiento y los pesos preentrenados de OlmoEarth están disponibles en https://github.com/allenai/olmoearth_pretrain.
English
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.
PDF92December 1, 2025