RS-WorldModel: un Modello Unificato per la Comprensione del Telerilevamento e la Previsione del Senso Futuro
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
March 16, 2026
Autori: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI
Abstract
I modelli del mondo nel telerilevamento mirano sia a spiegare i cambiamenti osservati sia a prevedere futuri plausibili, due compiti che condividono prior spaziotemporali. I metodi esistenti, tuttavia, tipicamente li affrontano separatamente, limitando il trasferimento cross-task. Presentiamo RS-WorldModel, un modello del mondo unificato per il telerilevamento che gestisce congiuntamente la comprensione dei cambiamenti spaziotemporali e la previsione di scene future guidata da testo, e costruiamo RSWBench-1.1M, un dataset da 1.1 milioni di campioni con ricche annotazioni linguistiche che copre entrambi i compiti. RS-WorldModel viene addestrato in tre fasi: (1) il Pre-addestramento Generativo Geo-Consapevole (GAGP) condiziona la previsione sui metadati geografici e di acquisizione; (2) la sintonizzazione sinergica su istruzioni (SIT) addestra congiuntamente comprensione e previsione; (3) l'ottimizzazione verificabile per rinforzo (VRO) affina gli output con ricompense verificabili e specifiche per il compito. Con soli 2 miliardi di parametri, RS-WorldModel supera modelli open-source fino a 120 volte più grandi sulla maggior parte delle metriche di question-answering sui cambiamenti spaziotemporali. Raggiunge un FID di 43.13 nella previsione di scene future guidata da testo, superando tutte le baseline open-source così come il modello closed-source Gemini-2.5-Flash Image (Nano Banana).
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).