CityRiSE: Erfassung des städtischen sozioökonomischen Status in Vision-Sprach-Modellen durch Reinforcement Learning
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
papers.authors: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
papers.abstract
Die Nutzung öffentlich zugänglicher, groß angelegter Webdaten wie Street-View- und Satellitenbilder ist von entscheidender Bedeutung für die Erreichung globaler Nachhaltigkeitsziele im Bereich der städtischen sozioökonomischen Erfassung. Mit dem Aufkommen großer visuell-sprachlicher Modelle (LVLMs) ergeben sich neue Möglichkeiten, diese Aufgabe als multimodales Wahrnehmungs- und Verständnisproblem zu lösen. Jüngste Studien zeigen jedoch, dass LVLMs nach wie vor Schwierigkeiten haben, präzise und interpretierbare sozioökonomische Prognosen aus visuellen Daten abzuleiten. Um diese Einschränkungen zu überwinden und das Potenzial von LVLMs voll auszuschöpfen, stellen wir CityRiSE vor – einen neuartigen Framework zur Bestimmung des städtischen sozioökonomischen Status durch rein bestärkendes Lernen (RL) in LVLMs. Durch sorgfältig aufbereitete multimodale Daten und ein verifizierbares Belohnungsdesign lenkt unser Ansatz die Aufmerksamkeit des LVLM auf semantisch bedeutsame visuelle Hinweise und ermöglicht so strukturierte, zielorientierte Schlussfolgerungen für generalistische sozioökonomische Statusvorhersagen. Experimente belegen, dass CityRiSE mit seinem emergenten Reasoning-Prozess bestehende Baseline-Methoden signifikant übertrifft und sowohl die Vorhersagegenauigkeit als auch die Generalisierbarkeit über verschiedene urbane Kontexte hinweg verbessert, insbesondere bei Prognosen für unbekannte Städte und unbekannte Indikatoren. Diese Arbeit unterstreicht das Potenzial der Kombination von RL und LVLMs für interpretierbare und generalistische städtische sozioökonomische Erfassung.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.