CityLens: Valutazione dei Modelli Linguaggio-Visione su Grande Scala per il Rilevamento Socioeconomico Urbano
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
Autori: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
Abstract
Comprendere le condizioni socioeconomiche urbane attraverso dati visivi è un compito impegnativo ma essenziale per lo sviluppo urbano sostenibile e la pianificazione delle politiche. In questo lavoro, introduciamo CityLens, un benchmark completo progettato per valutare le capacità dei modelli linguistico-visivi di grandi dimensioni (LLVM) nel prevedere indicatori socioeconomici a partire da immagini satellitari e di street view. Abbiamo costruito un dataset multimodale che copre un totale di 17 città distribuite a livello globale, abbracciando 6 aree chiave: economia, istruzione, criminalità, trasporti, salute e ambiente, riflettendo la natura multifaccetata della vita urbana. Sulla base di questo dataset, abbiamo definito 11 task di previsione e utilizzato tre paradigmi di valutazione: Previsione Diretta delle Metriche, Stima Normalizzata delle Metriche e Regressione Basata su Caratteristiche. Abbiamo testato 17 LLVM all'avanguardia su questi task. I nostri risultati rivelano che, sebbene gli LLVM dimostrino promettenti capacità percettive e di ragionamento, presentano ancora limitazioni nel prevedere gli indicatori socioeconomici urbani. CityLens fornisce un framework unificato per diagnosticare queste limitazioni e guidare futuri sforzi nell'utilizzo degli LLVM per comprendere e prevedere i modelli socioeconomici urbani. I nostri codici e dataset sono open-source e disponibili su https://github.com/tsinghua-fib-lab/CityLens.
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.