Urban-ImageNet: крупномасштабный мультимодальный набор данных и структура для оценки восприятия городского пространства
Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception
May 11, 2026
Авторы: Yiwei Ou, Chung Ching Cheung, Jun Yang Ang, Xiaobin Ren, Ronggui Sun, Guansong Gao, Kaiqi Zhao, Manfredo Manfredini
cs.AI
Аннотация
Мы представляем Urban-ImageNet — крупномасштабный мультимодальный набор данных и эталонный бенчмарк для восприятия городского пространства на основе изображений из социальных медиа, созданных пользователями. Корпус содержит более 2 миллионов общедоступных изображений из социальных сетей и соответствующих текстовых постов, собранных с Weibo на 61 городской локации в 24 городах Китая в период с 2019 по 2025 год, с контролируемыми подвыборками бенчмарка масштаба 1K, 10K и 100K, а также полным корпусом из 2M для крупномасштабного обучения и оценки. Urban-ImageNet организован по принципу HUSIC — иерархической системы классификации изображений городского пространства, определяющей таксономию из 10 классов, основанную на городской теории. Таксономия предназначена для различения активированных и неактивированных общественных пространств, внешней и внутренней городской среды, пространств размещения, контента потребления, портретов и не пространственного контента из социальных медиа. Вместо того чтобы рассматривать городские изображения как данные о типовых сценах, Urban-ImageNet оценивает, способны ли модели машинного восприятия улавливать пространственные, социальные и функциональные различия, центральные для городских исследований. Бенчмарк поддерживает три задачи в рамках единой стандартизированной библиотеки: (T1) семантическая классификация городских сцен, (T2) кросс-модальный поиск изображений по тексту и (T3) сегментация экземпляров. Наши эксперименты оценивают репрезентативные модели зрения, комбинированные модели «зрение-язык» и сегментации, выявляя высокую производительность на контролируемой классификации сцен, но более сложное поведение при кросс-модальном поиске и сегментации городских объектов на уровне экземпляров. Многошкальное исследование дополнительно изучает, как меняется производительность модели при увеличении сбалансированных обучающих данных с 1K до 10K и 100K изображений. Urban-ImageNet представляет единый, теоретически обоснованный, многогородской эталон для оценки того, как системы ИИ воспринимают и интерпретируют современные городские пространства в различных модальностях, масштабах и постановках задач. Набор данных и бенчмарк доступны по адресам: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet и github.com/yiasun/dataset-2.
English
We present Urban-ImageNet, a large-scale multi-modal dataset and evaluation benchmark for urban space perception from user-generated social media imagery. The corpus contains over 2 Million public social media images and paired textual posts collected from Weibo across 61 urban sites in 24 Chinese cities across 2019-2025, with controlled benchmark subsets at 1K, 10K, and 100K scale and a full 2M corpus for large-scale training and evaluation. Urban-ImageNet is organized by HUSIC, a Hierarchical Urban Space Image Classification framework that defines a 10-class taxonomy grounded in urban theory. The taxonomy is designed to distinguish activated and non-activated public spaces, exterior and interior urban environments, accommodation spaces, consumption content, portraits, and non-spatial social-media content. Rather than treating urban imagery as generic scene data, Urban-ImageNet evaluates whether machine perception models can capture spatial, social, and functional distinctions that are central to urban studies. The benchmark supports three tasks within one standardized library: (T1) urban scene semantic classification, (T2) cross-modal image-text retrieval, and (T3) instance segmentation. Our experiments evaluate representative vision, vision-language, and segmentation models, revealing strong performance on supervised scene classification but more challenging behavior in cross-modal retrieval and instance-level urban object segmentation. A multi-scale study further examines how model performance changes as balanced training data increases from 1K, 10K to 100K images. Urban-ImageNet provides a unified, theory-grounded, multi-city benchmark for evaluating how AI systems perceive and interpret contemporary urban spaces across modalities, scales, and task formulations. Dataset and benchmark are available at: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet and github.com/yiasun/dataset-2.