ChatPaper.aiChatPaper

CityRiSE: 강화 학습 기반 비전-언어 모델의 도시 사회경제적 지위 추론

CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

October 25, 2025
저자: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI

초록

거리 뷰 및 위성 영상과 같은 공개된 대규모 웹 데이터를 활용한 도시 사회경제적 센싱은 글로벌 지속가능발전목표(SDGs)를 달성하는 데 매우 중요합니다. 대규모 시각-언어 모델(LVLMs)의 등장으로 이 과제를 다중 모달 인식 및 이해 문제로 접근하여 해결할 새로운 기회가 생겼습니다. 그러나 최근 연구에 따르면 LVLM은 시각 데이터에서 정확하고 해석 가능한 사회경제적 예측을 수행하는 데 여전히 어려움을 겪고 있습니다. 이러한 한계를 해결하고 LVLM의 잠재력을 극대화하기 위해 우리는 순수 강화 학습(RL)을 통해 LVLM에서 도시 사회경제적 상태를 추론하는 새로운 프레임워크인 CityRiSE를 소개합니다. 신중하게 구성된 다중 모달 데이터와 검증 가능한 보상 설계를 통해 우리의 접근 방식은 LVLM이 의미론적으로 의미 있는 시각적 단서에 집중하도록 유도하여 일반적인 사회경제적 상태 예측을 위한 구조화되고 목표 지향적인 추론을 가능하게 합니다. 실험 결과, CityRiSE의 창발적 추론 과정이 기존 베이스라인을 크게 능가하며, 특히 보지 않은 도시와 보지 않은 지표에 대한 예측에서 다양한 도시 환경 전반에 걸쳐 예측 정확도와 일반화 성능을 모두 향상시키는 것으로 나타났습니다. 이 작업은 해석 가능하고 일반적인 도시 사회경제적 센싱을 위해 RL과 LVLM을 결합하는 것의 가능성을 강조합니다.
English
Harnessing publicly available, large-scale web data, such as street view and satellite imagery, urban socio-economic sensing is of paramount importance for achieving global sustainable development goals. With the emergence of Large Vision-Language Models (LVLMs), new opportunities have arisen to solve this task by treating it as a multi-modal perception and understanding problem. However, recent studies reveal that LVLMs still struggle with accurate and interpretable socio-economic predictions from visual data. To address these limitations and maximize the potential of LVLMs, we introduce CityRiSE, a novel framework for Reasoning urban Socio-Economic status in LVLMs through pure reinforcement learning (RL). With carefully curated multi-modal data and verifiable reward design, our approach guides the LVLM to focus on semantically meaningful visual cues, enabling structured and goal-oriented reasoning for generalist socio-economic status prediction. Experiments demonstrate that CityRiSE with emergent reasoning process significantly outperforms existing baselines, improving both prediction accuracy and generalization across diverse urban contexts, particularly for prediction on unseen cities and unseen indicators. This work highlights the promise of combining RL and LVLMs for interpretable and generalist urban socio-economic sensing.
PDF22December 2, 2025