RS-WorldModel: унифицированная модель для анализа данных дистанционного зондирования и прогнозирования будущего состояния
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
March 16, 2026
Авторы: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI
Аннотация
Модели мира дистанционного зондирования ставят целью как объяснение наблюдаемых изменений, так и прогнозирование правдоподобных сценариев будущего — две задачи, имеющие общие пространственно-временные априорные предположения. Однако существующие методы обычно решают их раздельно, что ограничивает перенос знаний между задачами. Мы представляем RS-WorldModel, унифицированную модель мира для дистанционного зондирования, которая совместно решает задачи понимания пространственно-временных изменений и прогнозирования сцен будущего на основе текстовых описаний, а также создаем RSWBench-1.1M — набор данных объемом 1,1 миллиона образцов с богатыми языковыми аннотациями, охватывающий обе задачи. Обучение RS-WorldModel проводится в три этапа: (1) гео-ориентированное генеративное предварительное обучение (GAGP), которое учитывает географические и атрибутивные метаданные при прогнозировании; (2) синергетическая тонкая настройка по инструкциям (SIT), совместно обучающая пониманию и прогнозированию; (3) верифицируемая оптимизация с подкреплением (VRO), которая улучшает выходные данные с помощью проверяемых, специфичных для задачи вознаграждений. Всего с 2 миллиардами параметров RS-WorldModel превосходит модели с открытым исходным кодом, размер которых до 120 раз больше, по большинству метрик вопросно-ответной системы для пространственно-временных изменений. Модель достигает показателя FID 43,13 в задаче прогнозирования будущих сцен по текстовому описанию, превосходя все открытые базовые модели, а также закрытую модель Gemini-2.5-Flash Image (Nano Banana).
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).