RS-WorldModel: Ein universelles Modell für Fernerkundungsverständnis und Vorhersage zukünftiger Zustände
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
March 16, 2026
Autoren: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI
Zusammenfassung
Fernerkundungs-Weltmodelle zielen darauf ab, sowohl beobachtete Veränderungen zu erklären als auch plausible Zukunftszenarien vorherzusagen – zwei Aufgaben, die räumlich-zeitliche A-priori-Informationen teilen. Bisherige Methoden behandeln diese Aufgaben jedoch typischerweise separat, was den transfer zwischen den Aufgaben limitiert. Wir stellen RS-WorldModel vor, ein einheitliches Weltmodell für die Fernerkundung, das sowohl das Verständnis räumlich-zeitlicher Veränderungen als auch die textgesteuerte Vorhersage zukünftiger Szenen gemeinsam bewältigt. Zudem stellen wir RSWBench-1.1M vor, einen Datensatz mit 1,1 Millionen Einträgen und umfangreichen Sprachannotationen, der beide Aufgaben abdeckt. RS-WorldModel wird in drei Stufen trainiert: (1) Geo-Aware Generative Pre-training (GAGP) konditioniert die Vorhersage auf geografische und Aufnahmemetadaten; (2) Synergistic Instruction Tuning (SIT) trainiert Verständnis und Vorhersage gemeinsam; (3) Verifiable Reinforcement Optimization (VRO) verfeinert die Ausgaben mit überprüfbaren, aufgabenspezifischen Belohnungen. Mit nur 2B Parametern übertrifft RS-WorldModel Open-Source-Modelle, die bis zu 120-mal größer sind, in den meisten Metriken für räumlich-zeitliche Frage-Antwort-Aufgaben. Es erreicht einen FID-Wert von 43,13 bei der textgesteuerten Vorhersage zukünftiger Szenen und übertrifft damit alle Open-Source-Baselines sowie das Closed-Source-Modell Gemini-2.5-Flash Image (Nano Banana).
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).