CityLens: 도시 사회경제적 감지를 위한 대규모 언어-비전 모델 벤치마킹
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
저자: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
초록
시각 데이터를 통해 도시의 사회경제적 조건을 이해하는 것은 지속 가능한 도시 개발과 정책 계획을 위한 어렵지만 필수적인 과제이다. 본 연구에서는 위성 및 스트리트 뷰 이미지로부터 사회경제적 지표를 예측하는 데 있어 대규모 언어-비전 모델(LLVM)의 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 CityLens를 소개한다. 우리는 전 세계적으로 분포된 총 17개 도시를 포괄하며, 경제, 교육, 범죄, 교통, 건강, 환경 등 도시 생활의 다면적 특성을 반영하는 6개 주요 영역을 아우르는 다중 모달 데이터셋을 구축하였다. 이 데이터셋을 기반으로 11개의 예측 과제를 정의하고, 직접 지표 예측(Direct Metric Prediction), 정규화 지표 추정(Normalized Metric Estimation), 특징 기반 회귀(Feature-Based Regression)라는 세 가지 평가 패러다임을 활용하였다. 우리는 이러한 과제들에 대해 17개의 최신 LLVM을 벤치마크하였다. 연구 결과, LLVM이 유망한 지각 및 추론 능력을 보여주는 반면, 도시 사회경제적 지표를 예측하는 데에는 여전히 한계가 있음을 확인하였다. CityLens는 이러한 한계를 진단하고, LLVM을 활용하여 도시 사회경제적 패턴을 이해하고 예측하기 위한 미래의 노력을 안내하는 통합 프레임워크를 제공한다. 우리의 코드와 데이터셋은 https://github.com/tsinghua-fib-lab/CityLens를 통해 공개되어 있다.
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.