RS-WorldModel : un modèle unifié pour la compréhension de la télédétection et la prévision de scénarios futurs
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
March 16, 2026
Auteurs: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI
Résumé
Les modèles du monde en télédétection visent à la fois à expliquer les changements observés et à prévoir des futurs plausibles, deux tâches qui partagent des connaissances préalables spatiotemporelles. Les méthodes existantes, cependant, les abordent généralement séparément, limitant le transfert inter-tâches. Nous présentons RS-WorldModel, un modèle unifié pour la télédétection qui traite conjointement la compréhension des changements spatiotemporels et la prévision de scènes futures guidée par texte, et nous construisons RSWBench-1.1M, un jeu de données de 1,1 million d'échantillons avec de riches annotations linguistiques couvrant les deux tâches. RS-WorldModel est entraîné en trois étapes : (1) le pré-entraînement génératif géo-contextuel (GAGP) conditionne la prévision sur les métadonnées géographiques et d'acquisition ; (2) le réglage par instruction synergique (SIT) entraîne conjointement la compréhension et la prévision ; (3) l'optimisation par renforcement vérifiable (VRO) affine les sorties avec des récompenses vérifiables et spécifiques aux tâches. Avec seulement 2 milliards de paramètres, RS-WorldModel surpasse les modèles open-source jusqu'à 120 fois plus grands sur la plupart des métriques de question-réponse concernant les changements spatiotemporels. Il atteint un FID de 43,13 pour la prévision de scènes futures guidée par texte, dépassant toutes les bases de référence open-source ainsi que le modèle fermé Gemini-2.5-Flash Image (Nano Banana).
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).