CityRiSE: Ragionamento sullo Status Socio-Economico Urbano nei Modelli Visione-Linguaggio tramite Apprendimento per Rinforzo
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
Autori: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
Abstract
Sfruttando dati web su larga scala e pubblicamente accessibili, come immagini street view e satellitari, la rilevazione socioeconomica urbana riveste un'importanza cruciale per il raggiungimento degli obiettivi di sviluppo sostenibile globale. Con l'emergere dei Large Vision-Language Models (LVLM), sono sorte nuove opportunità per affrontare questo compito trattandolo come un problema di percezione e comprensione multimodale. Tuttavia, studi recenti rivelano che gli LVLM continuano a mostrare difficoltà nel produrre previsioni socioeconomiche accurate e interpretabili a partire da dati visivi. Per superare queste limitazioni e massimizzare il potenziale degli LVLM, introduciamo CityRiSE, un framework innovativo per il Ragionamento sullo Status SocioEconomico urbano negli LVLM tramite puro reinforcement learning (RL). Attraverso dati multimodali accuratamente selezionati e un design di reward verificabile, il nostro approccio guida l'LVLM a concentrarsi su indizi visivi semanticamente significativi, abilitando un ragionamento strutturato e orientato agli obiettivi per previsioni socioeconomiche generaliste. Gli esperimenti dimostrano che CityRiSE, con il suo processo di ragionamento emergente, supera significativamente i baseline esistenti, migliorando sia l'accuratezza predittiva che la generalizzazione in diversi contesti urbani, in particolare per previsioni su città e indicatori non visti durante l'addestramento. Questo lavoro evidenzia le potenzialità della combinazione di RL e LVLM per una rilevazione socioeconomica urbana interpretabile e generalista.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.