CityLens: 都市の社会経済的センシングにおける大規模言語視覚モデルのベンチマーキング
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
著者: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
要旨
視覚データを通じて都市の社会経済状況を理解することは、持続可能な都市開発と政策計画にとって困難でありながらも不可欠な課題です。本研究では、衛星画像やストリートビュー画像から社会経済指標を予測する大規模言語視覚モデル(LLVM)の能力を評価するための包括的なベンチマークであるCityLensを紹介します。私たちは、世界17都市にわたる多モーダルデータセットを構築し、経済、教育、犯罪、交通、健康、環境という6つの主要な領域をカバーすることで、都市生活の多面的な性質を反映しています。このデータセットに基づいて、11の予測タスクを定義し、3つの評価パラダイム(直接指標予測、正規化指標推定、特徴ベース回帰)を活用します。これらのタスクに対して17の最先端LLVMをベンチマークしました。結果として、LLVMは有望な知覚能力と推論能力を示す一方で、都市の社会経済指標を予測する上ではまだ限界があることが明らかになりました。CityLensは、これらの限界を診断し、LLVMを用いて都市の社会経済パターンを理解・予測するための将来の取り組みを導く統一フレームワークを提供します。私たちのコードとデータセットはhttps://github.com/tsinghua-fib-lab/CityLensで公開されています。
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.