RS-WorldModel: um Modelo Unificado para Compreensão de Sensoriamento Remoto e Previsão de Cenários Futuros
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
March 16, 2026
Autores: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI
Resumo
Os modelos de mundo de sensoriamento remoto visam tanto explicar mudanças observadas quanto prever futuros plausíveis, duas tarefas que compartilham prévios espaço-temporais. No entanto, os métodos existentes normalmente as abordam separadamente, limitando a transferência entre tarefas. Apresentamos o RS-WorldModel, um modelo de mundo unificado para sensoriamento remoto que lida conjuntamente com a compreensão de mudanças espaço-temporais e a previsão de cenas futuras guiada por texto, e construímos o RSWBench-1.1M, um conjunto de dados com 1,1 milhão de amostras e ricas anotações linguísticas cobrindo ambas as tarefas. O RS-WorldModel é treinado em três estágios: (1) O Pré-treinamento Generativo Geo-Consciente (GAGP) condiciona a previsão em metadados geográficos e de aquisição; (2) o ajuste sinérgico por instrução (SIT) treina conjuntamente a compreensão e a previsão; (3) a otimização por reforço verificável (VRO) refina as saídas com recompensas específicas da tarefa e verificáveis. Com apenas 2B de parâmetros, o RS-WorldModel supera modelos de código aberto até 120 vezes maiores na maioria das métricas de questionamento e resposta sobre mudanças espaço-temporais. Ele alcança um FID de 43,13 na previsão de cenas futuras guiada por texto, superando todas as linhas de base de código aberto, bem como o modelo de código fechado Gemini-2.5-Flash Image (Nano Banana).
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).