ChatPaper.aiChatPaper

CityLens: Evaluación de Modelos Grandes de Lenguaje-Visión para la Percepción Socioeconómica Urbana

CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing

May 31, 2025
Autores: Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li
cs.AI

Resumen

Comprender las condiciones socioeconómicas urbanas a través de datos visuales es una tarea desafiante pero esencial para el desarrollo urbano sostenible y la planificación de políticas. En este trabajo, presentamos CityLens, un punto de referencia integral diseñado para evaluar las capacidades de los modelos avanzados de lenguaje y visión (LLVMs, por sus siglas en inglés) en la predicción de indicadores socioeconómicos a partir de imágenes satelitales y de vista de calle. Construimos un conjunto de datos multimodal que abarca un total de 17 ciudades distribuidas globalmente, cubriendo 6 dominios clave: economía, educación, crimen, transporte, salud y medio ambiente, reflejando la naturaleza multifacética de la vida urbana. Basándonos en este conjunto de datos, definimos 11 tareas de predicción y utilizamos tres paradigmas de evaluación: Predicción Directa de Métricas, Estimación Normalizada de Métricas y Regresión Basada en Características. Evaluamos 17 LLVMs de última generación en estas tareas. Nuestros resultados revelan que, aunque los LLVMs demuestran capacidades perceptivas y de razonamiento prometedoras, aún presentan limitaciones en la predicción de indicadores socioeconómicos urbanos. CityLens proporciona un marco unificado para diagnosticar estas limitaciones y guiar esfuerzos futuros en el uso de LLVMs para comprender y predecir patrones socioeconómicos urbanos. Nuestros códigos y conjuntos de datos están disponibles públicamente en https://github.com/tsinghua-fib-lab/CityLens.
English
Understanding urban socioeconomic conditions through visual data is a challenging yet essential task for sustainable urban development and policy planning. In this work, we introduce CityLens, a comprehensive benchmark designed to evaluate the capabilities of large language-vision models (LLVMs) in predicting socioeconomic indicators from satellite and street view imagery. We construct a multi-modal dataset covering a total of 17 globally distributed cities, spanning 6 key domains: economy, education, crime, transport, health, and environment, reflecting the multifaceted nature of urban life. Based on this dataset, we define 11 prediction tasks and utilize three evaluation paradigms: Direct Metric Prediction, Normalized Metric Estimation, and Feature-Based Regression. We benchmark 17 state-of-the-art LLVMs across these tasks. Our results reveal that while LLVMs demonstrate promising perceptual and reasoning capabilities, they still exhibit limitations in predicting urban socioeconomic indicators. CityLens provides a unified framework for diagnosing these limitations and guiding future efforts in using LLVMs to understand and predict urban socioeconomic patterns. Our codes and datasets are open-sourced via https://github.com/tsinghua-fib-lab/CityLens.
PDF22June 3, 2025