CityRiSE: Redeneren over Stedelijke Sociaal-Economische Status in Visie-Taalmodellen via Versterkend Leren
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
Auteurs: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
Samenvatting
Het benutten van openbaar beschikbare, grootschalige webgegevens, zoals streetview- en satellietbeelden, is van cruciaal belang voor stedelijke sociaaleconomische sensing om mondiale duurzame ontwikkelingsdoelen te bereiken. Met de opkomst van Large Vision-Language Models (LVLMs) zijn nieuwe mogelijkheden ontstaan om deze taak aan te pakken door deze te behandelen als een multimodaal perceptie- en begripsprobleem. Recente studies tonen echter aan dat LVLMs nog steeds moeite hebben met accurate en interpreteerbare sociaaleconomische voorspellingen op basis van visuele data. Om deze beperkingen aan te pakken en het potentieel van LVLMs te maximaliseren, introduceren we CityRiSE, een nieuw raamwerk voor het redeneren over stedelijke sociaaleconomische status in LVLMs via pure reinforcement learning (RL). Met zorgvuldig samengestelde multimodale data en verifieerbare beloningsontwerpen leidt onze aanpak de LVLM naar semantisch betekenisvolle visuele aanwijzingen, waardoor gestructureerd en doelgericht redeneren mogelijk wordt voor generalistische sociaaleconomische statusvoorspelling. Experimenten tonen aan dat CityRiSE met zijn emergente redeneerproces significant beter presteert dan bestaande baseline-methoden, waarbij zowel de voorspellingsnauwkeurigheid als de generalisatie over diverse stedelijke contexten verbetert, vooral voor voorspellingen over onbekende steden en onbekende indicatoren. Dit werk belicht de belofte van het combineren van RL en LVLMs voor interpreteerbare en generalistische stedelijke sociaaleconomische sensing.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.