Urban-ImageNet: Un conjunto de datos multimodal a gran escala y un marco de evaluación para la percepción del espacio urbano

Resumen

Presentamos Urban-ImageNet, un conjunto de datos multimodal a gran escala y un punto de referencia de evaluación para la percepción del espacio urbano a partir de imágenes de redes sociales generadas por usuarios. El corpus contiene más de 2 millones de imágenes públicas de redes sociales y publicaciones textuales asociadas recopiladas de Weibo en 61 sitios urbanos de 24 ciudades chinas entre 2019 y 2025, con subconjuntos de referencia controlados a escalas de 1K, 10K y 100K, y un corpus completo de 2M para entrenamiento y evaluación a gran escala. Urban-ImageNet se organiza mediante HUSIC, un marco de Clasificación Jerárquica de Imágenes de Espacio Urbano que define una taxonomía de 10 clases fundamentada en teoría urbana. La taxonomía está diseñada para distinguir espacios públicos activados y no activados, entornos urbanos exteriores e interiores, espacios de alojamiento, contenido de consumo, retratos y contenido no espacial de redes sociales. En lugar de tratar las imágenes urbanas como datos de escenas genéricas, Urban-ImageNet evalúa si los modelos de percepción automática pueden capturar distinciones espaciales, sociales y funcionales centrales para los estudios urbanos. El punto de referencia admite tres tareas dentro de una biblioteca estandarizada: (T1) clasificación semántica de escenas urbanas, (T2) recuperación intermodal de imágenes y texto, y (T3) segmentación de instancias. Nuestros experimentos evalúan modelos representativos de visión, visión-lenguaje y segmentación, revelando un rendimiento sólido en clasificación supervisada de escenas, pero un comportamiento más desafiante en recuperación intermodal y segmentación de objetos urbanos a nivel de instancia. Un estudio multiescala examina además cómo cambia el rendimiento del modelo al aumentar los datos de entrenamiento equilibrados de 1K, 10K a 100K imágenes. Urban-ImageNet proporciona un punto de referencia unificado, fundamentado en teoría y multicjudad para evaluar cómo los sistemas de IA perciben e interpretan espacios urbanos contemporáneos a través de modalidades, escalas y formulaciones de tareas. El conjunto de datos y el punto de referencia están disponibles en: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet y github.com/yiasun/dataset-2.

English

We present Urban-ImageNet, a large-scale multi-modal dataset and evaluation benchmark for urban space perception from user-generated social media imagery. The corpus contains over 2 Million public social media images and paired textual posts collected from Weibo across 61 urban sites in 24 Chinese cities across 2019-2025, with controlled benchmark subsets at 1K, 10K, and 100K scale and a full 2M corpus for large-scale training and evaluation. Urban-ImageNet is organized by HUSIC, a Hierarchical Urban Space Image Classification framework that defines a 10-class taxonomy grounded in urban theory. The taxonomy is designed to distinguish activated and non-activated public spaces, exterior and interior urban environments, accommodation spaces, consumption content, portraits, and non-spatial social-media content. Rather than treating urban imagery as generic scene data, Urban-ImageNet evaluates whether machine perception models can capture spatial, social, and functional distinctions that are central to urban studies. The benchmark supports three tasks within one standardized library: (T1) urban scene semantic classification, (T2) cross-modal image-text retrieval, and (T3) instance segmentation. Our experiments evaluate representative vision, vision-language, and segmentation models, revealing strong performance on supervised scene classification but more challenging behavior in cross-modal retrieval and instance-level urban object segmentation. A multi-scale study further examines how model performance changes as balanced training data increases from 1K, 10K to 100K images. Urban-ImageNet provides a unified, theory-grounded, multi-city benchmark for evaluating how AI systems perceive and interpret contemporary urban spaces across modalities, scales, and task formulations. Dataset and benchmark are available at: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet and github.com/yiasun/dataset-2.

Urban-ImageNet: Un conjunto de datos multimodal a gran escala y un marco de evaluación para la percepción del espacio urbano

Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

Resumen

Support