CityRiSE: Определение социально-экономического статуса городской среды в визуально-языковых моделях с помощью обучения с подкреплением
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
October 25, 2025
Авторы: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui
cs.AI
Аннотация
Использование общедоступных веб-данных крупного масштаба, таких как панорамные снимки улиц и спутниковые изображения, для оценки городских социально-экономических показателей имеет первостепенное значение для достижения глобальных целей устойчивого развития. С появлением больших визуально-языковых моделей (LVLM) возникли новые возможности для решения этой задачи путем ее рассмотрения как проблемы многомодального восприятия и понимания. Однако последние исследования показывают, что LVLM по-прежнему испытывают трудности с точными и интерпретируемыми прогнозами социально-экономических показателей на основе визуальных данных. Для преодоления этих ограничений и максимального раскрытия потенциала LVLM мы представляем CityRiSE — новую структуру для оценки социально-экономического статуса городских территорий в LVLM с помощью чистого обучения с подкреплением (RL). Благодаря тщательно отобранным многомодальным данным и проверяемому дизайну вознаграждений наш подход направляет LVLM на фокусировку семантически значимых визуальных признаков, обеспечивая структурированное и целенаправленное рассуждение для универсального прогнозирования социально-экономического статуса. Эксперименты демонстрируют, что CityRiSE с возникающим процессом рассуждения значительно превосходит существующие базовые методы, улучшая как точность прогнозирования, так и способность к обобщению в различных городских контекстах, особенно при прогнозировании для неизученных городов и неизвестных показателей. Данная работа подчеркивает перспективность сочетания RL и LVLM для интерпретируемой и универсальной оценки городских социально-экономических параметров.
English
Harnessing publicly available, large-scale web data, such as street view and
satellite imagery, urban socio-economic sensing is of paramount importance for
achieving global sustainable development goals. With the emergence of Large
Vision-Language Models (LVLMs), new opportunities have arisen to solve this
task by treating it as a multi-modal perception and understanding problem.
However, recent studies reveal that LVLMs still struggle with accurate and
interpretable socio-economic predictions from visual data. To address these
limitations and maximize the potential of LVLMs, we introduce
CityRiSE, a novel framework for Reasoning urban
Socio-Economic status in LVLMs through pure reinforcement
learning (RL). With carefully curated multi-modal data and verifiable reward
design, our approach guides the LVLM to focus on semantically meaningful visual
cues, enabling structured and goal-oriented reasoning for generalist
socio-economic status prediction. Experiments demonstrate that CityRiSE with
emergent reasoning process significantly outperforms existing baselines,
improving both prediction accuracy and generalization across diverse urban
contexts, particularly for prediction on unseen cities and unseen indicators.
This work highlights the promise of combining RL and LVLMs for interpretable
and generalist urban socio-economic sensing.