CityRiSE : Raisonnement sur le statut socio-économique urbain dans les modèles de vision et de langage par apprentissage par renforcement
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
papers.authors: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
papers.abstract
L'exploitation de données web publiques à grande échelle, telles que les images de vue à rue et d'imagerie satellitaire, est d'une importance primordiale pour la détection socio-économique urbaine visant à atteindre les objectifs de développement durable mondiaux. Avec l'émergence des Grands Modèles Vision-Langage (LVLM), de nouvelles opportunités se présentent pour résoudre cette tâche en la traitant comme un problème de perception et de compréhension multimodale. Cependant, des études récentes révèlent que les LVLM peinent encore à effectuer des prédictions socio-économiques précises et interprétables à partir de données visuelles. Pour pallier ces limitations et maximiser le potentiel des LVLM, nous présentons **CityRiSE**, un nouveau cadre pour le **R**aisonnement du **S**tatus **E**conomique urbain dans les LVLM via l'apprentissage par renforcement pur. Grâce à des données multimodales soigneusement sélectionnées et à une conception de récompense vérifiable, notre approche guide le LVLM pour qu'il se concentre sur des indices visuels sémantiquement significatifs, permettant un raisonnement structuré et orienté vers un objectif pour la prédiction généraliste du statut socio-économique. Les expériences démontrent que CityRiSE, avec son processus de raisonnement émergent, surpasse significativement les méthodes de référence existantes, améliorant à la fois la précision des prédictions et la généralisation dans divers contextes urbains, particulièrement pour les prédictions sur des villes et des indicateurs non vus lors de l'apprentissage. Ces travaux soulignent le potentiel de la combinaison de l'apprentissage par renforcement et des LVLM pour une détection socio-économique urbaine interprétable et généraliste.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.