CityRiSE: Raciocínio sobre o Status Socioeconômico Urbano em Modelos de Visão e Linguagem via Aprendizado por Reforço
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
Autores: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
Resumo
Aproveitar dados públicos em larga escala da web, como imagens de visualização de ruas e imagens de satélite, para a percepção socioeconômica urbana é de suma importância para o alcance dos objetivos globais de desenvolvimento sustentável. Com o surgimento dos Grandes Modelos de Linguagem e Visão (LVLMs, na sigla em inglês), novas oportunidades surgiram para resolver essa tarefa tratando-a como um problema de percepção e compreensão multimodal. No entanto, estudos recentes revelam que os LVLMs ainda lutam para fazer previsões socioeconômicas precisas e interpretáveis a partir de dados visuais. Para enfrentar essas limitações e maximizar o potencial dos LVLMs, nós introduzimos o **CityRiSE**, uma nova estrutura para **R**aciocinar sobre a situação **S**ocio**E**conômica **U**rbana em LVLMs por meio de puro aprendizado por reforço (RL, na sigla em inglês). Com dados multimodais cuidadosamente curados e um design de recompensa verificável, nossa abordagem orienta o LVLM a focar em pistas visuais semanticamente significativas, permitindo um raciocínio estruturado e orientado a objetivos para a previsão generalista do status socioeconômico. Experimentos demonstram que o CityRiSE, com seu processo de raciocínio emergente, supera significativamente as linhas de base existentes, melhorando tanto a precisão da previsão quanto a generalização em diversos contextos urbanos, particularmente para previsões em cidades não vistas e indicadores não vistos. Este trabalho destaca a promessa de combinar RL e LVLMs para uma percepção socioeconômica urbana interpretável e generalista.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.