ChatPaper.aiChatPaper

OlmoEarth: Стабильное латентное моделирование изображений для мультимодального дистанционного зондирования Земли

OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

November 17, 2025
Авторы: Henry Herzog, Favyen Bastani, Yawen Zhang, Gabriel Tseng, Joseph Redmon, Hadrien Sablon, Ryan Park, Jacob Morrison, Alexandra Buraczynski, Karen Farley, Joshua Hansen, Andrew Howe, Patrick Alan Johnson, Mark Otterlee, Ted Schmitt, Hunter Pitelka, Stephen Daspit, Rachel Ratner, Christopher Wilhelm, Sebastian Wood, Mike Jacobi, Hannah Kerner, Evan Shelhamer, Ali Farhadi, Ranjay Krishna, Patrick Beukema
cs.AI

Аннотация

Данные дистанционного зондирования Земли представляют собой уникальную проблему: они обладают пространственной природой, как изображения, последовательностью, как видео или текст, и являются сильно мультимодальными. Мы представляем OlmoEarth: мультимодальную пространственно-временную базовую модель, которая использует новую формулировку самообучения, стратегию маскирования и функцию потерь, специально разработанные для области наблюдения за Землей. OlmoEarth демонстрирует наилучшую производительность по сравнению с 12 другими базовыми моделями в различных исследовательских бенчмарках и реальных задачах от внешних партнеров. При оценке эмбеддингов OlmoEarth показывает наилучший результат в 15 из 24 задач, а при полном дообучении — в 19 из 29 задач. Мы развертываем OlmoEarth в качестве основы сквозной платформы для сбора данных, разметки, обучения и вывода моделей дистанционного зондирования. Платформа OlmoEarth предоставляет передовые базовые модели и мощные инструменты управления данными в распоряжение некоммерческих организаций и НПО, работающих над решением самых серьезных мировых проблем. Исходный код OlmoEarth, данные для обучения и предобученные веса доступны по адресу https://github.com/allenai/olmoearth_pretrain.
English
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.
PDF92December 1, 2025