RS-WorldModel: een Geïntegreerd Model voor Remote Sensing Interpretatie en Toekomstige Situatievoorspelling

Samenvatting

Wereldmodellen voor remote sensing streven ernaar zowel waargenomen veranderingen te verklaren als plausibele toekomsten te voorspellen – twee taken die ruimtelijk-temporele precedenten delen. Bestaande methoden pakken deze echter doorgaans afzonderlijk aan, wat de overdracht tussen taken beperkt. Wij presenteren RS-WorldModel, een verenigd wereldmodel voor remote sensing dat ruimtelijk-temporele veranderingsanalyse en tekstgestuurde toekomstscèneverwachting gezamenlijk aanpakt, en we bouwen RSWBench-1.1M, een dataset met 1,1 miljoen samples en rijke taalannotaties die beide taken dekt. RS-WorldModel wordt getraind in drie fasen: (1) Geo-Aware Generative Pre-training (GAGP) conditioneert voorspellingen op geografische en acquisitiemetadata; (2) synergistische instructieafstemming (SIT) traint begrip en voorspelling gezamenlijk; (3) verifieerbare reinforcement-optimalisatie (VRO) verfijnt uitvoeren met verifieerbare, taakspecifieke beloningen. Met slechts 2B parameters overtreft RS-WorldModel open-source modellen die tot 120 keer groter zijn op de meeste ruimtelijk-temporele veranderingsvragenlijstmetrieken. Het behaalt een FID van 43,13 voor tekstgestuurde toekomstscèneverwachting, waarmee het alle open-source referentiemodellen evenals het closed-source Gemini-2.5-Flash Image (Nano Banana) overtreft.

English

Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).

RS-WorldModel: een Geïntegreerd Model voor Remote Sensing Interpretatie en Toekomstige Situatievoorspelling

RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

Samenvatting

Support