CityRiSE : Raisonnement sur le statut socio-économique urbain dans les modèles de vision et de langage par apprentissage par renforcement

papers.abstract

L'exploitation de données web publiques à grande échelle, telles que les images de vue à rue et d'imagerie satellitaire, est d'une importance primordiale pour la détection socio-économique urbaine visant à atteindre les objectifs de développement durable mondiaux. Avec l'émergence des Grands Modèles Vision-Langage (LVLM), de nouvelles opportunités se présentent pour résoudre cette tâche en la traitant comme un problème de perception et de compréhension multimodale. Cependant, des études récentes révèlent que les LVLM peinent encore à effectuer des prédictions socio-économiques précises et interprétables à partir de données visuelles. Pour pallier ces limitations et maximiser le potentiel des LVLM, nous présentons **CityRiSE**, un nouveau cadre pour le **R**aisonnement du **S**tatus **E**conomique urbain dans les LVLM via l'apprentissage par renforcement pur. Grâce à des données multimodales soigneusement sélectionnées et à une conception de récompense vérifiable, notre approche guide le LVLM pour qu'il se concentre sur des indices visuels sémantiquement significatifs, permettant un raisonnement structuré et orienté vers un objectif pour la prédiction généraliste du statut socio-économique. Les expériences démontrent que CityRiSE, avec son processus de raisonnement émergent, surpasse significativement les méthodes de référence existantes, améliorant à la fois la précision des prédictions et la généralisation dans divers contextes urbains, particulièrement pour les prédictions sur des villes et des indicateurs non vus lors de l'apprentissage. Ces travaux soulignent le potentiel de la combinaison de l'apprentissage par renforcement et des LVLM pour une détection socio-économique urbaine interprétable et généraliste.

English

Harnessing publicly available, large-scale web data, such as street view and satellite imagery, urban socio-economic sensing is of paramount importance for achieving global sustainable development goals. With the emergence of Large Vision-Language Models (LVLMs), new opportunities have arisen to solve this task by treating it as a multi-modal perception and understanding problem. However, recent studies reveal that LVLMs still struggle with accurate and interpretable socio-economic predictions from visual data. To address these limitations and maximize the potential of LVLMs, we introduce CityRiSE, a novel framework for Reasoning urban Socio-Economic status in LVLMs through pure reinforcement learning (RL). With carefully curated multi-modal data and verifiable reward design, our approach guides the LVLM to focus on semantically meaningful visual cues, enabling structured and goal-oriented reasoning for generalist socio-economic status prediction. Experiments demonstrate that CityRiSE with emergent reasoning process significantly outperforms existing baselines, improving both prediction accuracy and generalization across diverse urban contexts, particularly for prediction on unseen cities and unseen indicators. This work highlights the promise of combining RL and LVLMs for interpretable and generalist urban socio-economic sensing.

CityRiSE : Raisonnement sur le statut socio-économique urbain dans les modèles de vision et de langage par apprentissage par renforcement

CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

papers.abstract

Support