CityRiSE: Razonamiento del Estatus Socioeconómico Urbano en Modelos de Visión y Lenguaje mediante Aprendizaje por Refuerzo
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
Autores: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
Resumen
El aprovechamiento de datos web de gran escala y acceso público, como imágenes de vista de calle e imágenes satelitales, es de suma importancia para la percepción socioeconómica urbana y la consecución de los objetivos globales de desarrollo sostenible. Con la aparición de los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés), han surgido nuevas oportunidades para abordar esta tarea tratándola como un problema de percepción y comprensión multimodal. Sin embargo, estudios recientes revelan que los LVLM aún presentan dificultades para realizar predicciones socioeconómicas precisas e interpretables a partir de datos visuales. Para superar estas limitaciones y maximizar el potencial de los LVLM, presentamos CityRiSE, un novedoso marco de trabajo para el Razonamiento del Estatus Socio-Económico urbano en LVLM mediante aprendizaje por refuerzo puro (RL, por sus siglas en inglés). Con datos multimodales cuidadosamente seleccionados y un diseño de recompensa verificable, nuestro enfoque guía al LVLM para que se centre en indicios visuales semánticamente significativos, permitiendo un razonamiento estructurado y orientado a objetivos para la predicción generalista del estatus socioeconómico. Los experimentos demuestran que CityRiSE, con su proceso de razonamiento emergente, supera significativamente a los métodos baseline existentes, mejorando tanto la precisión predictiva como la generalización en diversos contextos urbanos, particularmente para la predicción en ciudades no vistas previamente y en indicadores no vistos. Este trabajo subraya el potencial de combinar RL y LVLM para una percepción socioeconómica urbana interpretable y generalista.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.