CityLens: Оценка крупных языково-визуальных моделей для анализа городской социально-экономической среды
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
Авторы: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
Аннотация
Понимание социально-экономических условий городской среды через визуальные данные представляет собой сложную, но крайне важную задачу для устойчивого городского развития и планирования политики. В данной работе мы представляем CityLens — всеобъемлющий бенчмарк, разработанный для оценки способностей крупных языково-визуальных моделей (LLVM) в прогнозировании социально-экономических показателей на основе спутниковых изображений и панорамных снимков улиц. Мы создали мультимодальный набор данных, охватывающий 17 городов по всему миру и включающий 6 ключевых областей: экономика, образование, преступность, транспорт, здравоохранение и экология, что отражает многогранность городской жизни. На основе этого набора данных мы определили 11 задач прогнозирования и использовали три парадигмы оценки: прямое предсказание метрик, нормализованная оценка метрик и регрессия на основе признаков. Мы протестировали 17 современных LLVM на этих задачах. Наши результаты показывают, что, хотя LLVM демонстрируют перспективные перцептивные и аналитические способности, они всё ещё имеют ограничения в прогнозировании социально-экономических показателей городской среды. CityLens предоставляет унифицированную структуру для диагностики этих ограничений и направления будущих усилий в использовании LLVM для понимания и прогнозирования социально-экономических паттернов городской среды. Наши коды и наборы данных открыты для использования по адресу https://github.com/tsinghua-fib-lab/CityLens.
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.