ChatPaper.aiChatPaper

RS-WorldModel: 원격 탐지 이해 및 미래 감지 예측을 위한 통합 모델

RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

March 16, 2026
저자: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li
cs.AI

초록

원격 감지 세계 모델은 관찰된 변화를 설명하고 가능한 미래를 예측하는 두 가지 과제를 수행하는 것을 목표로 하며, 이 두 과제는 시공간적 사전 정보를 공유합니다. 그러나 기존 방법론은 일반적으로 이들을 별도로 처리하여 과제 간 전이를 제한합니다. 본 연구에서는 시공간 변화 이해와 텍스트 기반 미래 장면 예측을 통합적으로 처리하는 원격 감지 통합 세계 모델인 RS-WorldModel을 제시하고, 두 과제를 포괄하는 풍부한 언어 주해가 포함된 110만 개 샘플 데이터셋인 RSWBench-1.1M을 구축합니다. RS-WorldModel은 세 단계로 훈련됩니다: (1) 지리 인식 생성 사전 훈련(GAGP)은 지리 및 취득 메타데이터를 기반으로 예측을 조건화하고, (2) 시너지 명령어 튜닝(SIT)은 이해와 예측을 공동으로 훈련하며, (3) 검증 가능한 강화 최적화(VRO)는 검증 가능한 과제별 보상으로 출력을 정제합니다. 단 20억 개의 매개변수만으로 RS-WorldModel은 대부분의 시공간 변화 질의응답 메트릭에서 최대 120배 큰 오픈소스 모델들을 능가합니다. 텍스트 기반 미래 장면 예측에서 FID 43.13을 달성하여 모든 오픈소스 기준 모델과 폐쇄형 모델인 Gemini-2.5-Flash Image(Nano Banana)보다 우수한 성능을 보입니다.
English
Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120 times larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).
PDF82March 18, 2026