RS-WorldModel: un Modelo Unificado para la Comprensión de Teledetección y la Predicción de Escenarios Futuros

Resumen

Los modelos de mundo en teledetección buscan tanto explicar los cambios observados como pronosticar futuros plausibles, dos tareas que comparten información previa espacio-temporal. Sin embargo, los métodos existentes suelen abordarlas por separado, lo que limita la transferencia entre tareas. Presentamos RS-WorldModel, un modelo de mundo unificado para teledetección que maneja conjuntamente la comprensión de cambios espacio-temporales y la predicción de escenarios futuros guiada por texto, y construimos RSWBench-1.1M, un conjunto de datos de 1.1 millones de muestras con anotaciones lingüísticas ricas que cubre ambas tareas. RS-WorldModel se entrena en tres etapas: (1) el Pre-entrenamiento Generativo Geo-Consciente (GAGP) condiciona la predicción a metadatos geográficos y de adquisición; (2) la sintonización instruccional sinérgica (SIT) entrena conjuntamente la comprensión y la predicción; (3) la optimización por refuerzo verificable (VRO) refina las salidas con recompensas verificables y específicas de la tarea. Con solo 2B de parámetros, RS-WorldModel supera a modelos de código abierto hasta 120 veces más grandes en la mayoría de las métricas de respuesta a preguntas sobre cambios espacio-temporales. Logra un FID de 43.13 en la predicción de escenas futuras guiada por texto, superando a todos los baselines de código abierto, así como al modelo de código cerrado Gemini-2.5-Flash Image (Nano Banana).

English

Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).

RS-WorldModel: un Modelo Unificado para la Comprensión de Teledetección y la Predicción de Escenarios Futuros

RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

Resumen

Support