CityRiSE: 強化学習による視覚言語モデルを用いた都市の社会経済的状況の推論
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
著者: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
要旨
ストリートビューや衛星画像などの公的で大規模なウェブデータを活用した都市の社会経済センシングは、地球規模の持続可能な開発目標(SDGs)を達成する上で極めて重要である。大規模視覚言語モデル(LVLM)の登場により、この課題をマルチモーダルな知覚・理解問題として扱う新たな可能性が生まれている。しかし、最近の研究では、LVLMが視覚データから正確で解釈可能な社会経済的予測を行うには依然として課題があることが明らかになっている。これらの限界に対処し、LVLMの可能性を最大限に引き出すため、我々は純粋強化学習(RL)を用いてLVLMにおける都市の社会経済状態を推論する新規フレームワーク「CityRiSE」を提案する。注意深くキュレーションされたマルチモーダルデータと検証可能な報酬設計により、本手法はLVLMに意味的に有意義な視覚的手がかりに注目させ、汎用的な社会経済状態予測のための構造化された目標指向の推論を可能にする。実験により、創発的な推論プロセスを備えたCityRiSEが既存のベースライン手法を大幅に上回り、多様な都市環境における予測精度と汎化性能の両方を向上させること、特に未見の都市や未見の指標に対する予測において有効であることを実証する。本研究は、強化学習とLVLMを組み合わせることで、解釈可能かつ汎用的な都市社会経済センシングが実現できる可能性を示している。
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.