CityLens: Avaliação de Modelos Multimodais de Linguagem e Visão para Sensoriamento Socioeconômico Urbano
CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing
May 31, 2025
Autores: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI
Resumo
Compreender as condições socioeconômicas urbanas por meio de dados visuais é uma tarefa desafiadora, porém essencial, para o desenvolvimento urbano sustentável e o planejamento de políticas. Neste trabalho, apresentamos o CityLens, um benchmark abrangente projetado para avaliar as capacidades de modelos de linguagem-visão de grande escala (LLVMs) na previsão de indicadores socioeconômicos a partir de imagens de satélite e de visão de rua. Construímos um conjunto de dados multimodal que abrange um total de 17 cidades distribuídas globalmente, abrangendo 6 domínios principais: economia, educação, criminalidade, transporte, saúde e meio ambiente, refletindo a natureza multifacetada da vida urbana. Com base nesse conjunto de dados, definimos 11 tarefas de previsão e utilizamos três paradigmas de avaliação: Previsão Direta de Métricas, Estimativa Normalizada de Métricas e Regressão Baseada em Características. Avaliamos 17 LLVMs de ponta nessas tarefas. Nossos resultados revelam que, embora os LLVMs demonstrem capacidades perceptivas e de raciocínio promissoras, eles ainda apresentam limitações na previsão de indicadores socioeconômicos urbanos. O CityLens fornece uma estrutura unificada para diagnosticar essas limitações e orientar esforços futuros no uso de LLVMs para compreender e prever padrões socioeconômicos urbanos. Nossos códigos e conjuntos de dados estão disponíveis em código aberto via https://github.com/tsinghua-fib-lab/CityLens.
English
Understanding urban socioeconomic conditions through visual data is a
challenging yet essential task for sustainable urban development and policy
planning. In this work, we introduce CityLens, a comprehensive
benchmark designed to evaluate the capabilities of large language-vision models
(LLVMs) in predicting socioeconomic indicators from satellite and street view
imagery. We construct a multi-modal dataset covering a total of 17 globally
distributed cities, spanning 6 key domains: economy, education, crime,
transport, health, and environment, reflecting the multifaceted nature of urban
life. Based on this dataset, we define 11 prediction tasks and utilize three
evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation,
and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across
these tasks. Our results reveal that while LLVMs demonstrate promising
perceptual and reasoning capabilities, they still exhibit limitations in
predicting urban socioeconomic indicators. CityLens provides a unified
framework for diagnosing these limitations and guiding future efforts in using
LLVMs to understand and predict urban socioeconomic patterns. Our codes and
datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.