CityLens: Evaluatie van Grote Taal-Visie Modellen voor Stedelijke Sociaaleconomische Waarneming
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
Auteurs: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
Samenvatting
Het begrijpen van stedelijke sociaaleconomische omstandigheden door middel van visuele data is een uitdagende maar essentiële taak voor duurzame stedelijke ontwikkeling en beleidsplanning. In dit werk introduceren we CityLens, een uitgebreide benchmark die is ontworpen om de capaciteiten van grote taal-visie modellen (LLVMs) te evalueren bij het voorspellen van sociaaleconomische indicatoren op basis van satelliet- en straatbeeldfoto's. We construeren een multimodale dataset die in totaal 17 wereldwijd verspreide steden omvat, met 6 belangrijke domeinen: economie, onderwijs, criminaliteit, transport, gezondheid en milieu, wat de veelzijdige aard van het stedelijk leven weerspiegelt. Op basis van deze dataset definiëren we 11 voorspellingstaken en gebruiken we drie evaluatieparadigma's: Directe Metrische Voorspelling, Genormaliseerde Metrische Schatting en Feature-Based Regressie. We benchmarken 17 state-of-the-art LLVMs over deze taken. Onze resultaten laten zien dat hoewel LLVMs veelbelovende perceptuele en redeneervaardigheden demonstreren, ze nog steeds beperkingen vertonen bij het voorspellen van stedelijke sociaaleconomische indicatoren. CityLens biedt een uniform raamwerk voor het diagnosticeren van deze beperkingen en het begeleiden van toekomstige inspanningen om LLVMs te gebruiken voor het begrijpen en voorspellen van stedelijke sociaaleconomische patronen. Onze codes en datasets zijn openbaar gemaakt via https://github.com/tsinghua-fib-lab/CityLens.
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.