Urban-ImageNet : Un ensemble de données multimodal à grande échelle et un cadre d'évaluation pour la perception des espaces urbains
Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception
May 11, 2026
Auteurs: Yiwei Ou, Chung Ching Cheung, Jun Yang Ang, Xiaobin Ren, Ronggui Sun, Guansong Gao, Kaiqi Zhao, Manfredo Manfredini
cs.AI
Résumé
Nous présentons Urban-ImageNet, un ensemble de données multimodal à grande échelle et un benchmark d’évaluation pour la perception des espaces urbains à partir d’images issues des réseaux sociaux générées par les utilisateurs. Le corpus comprend plus de 2 millions d’images publiques issues des réseaux sociaux et leurs publications textuelles associées, collectées sur Weibo dans 61 sites urbains répartis dans 24 villes chinoises entre 2019 et 2025. Il comporte des sous-ensembles de benchmark contrôlés à des échelles de 1K, 10K et 100K, ainsi qu’un corpus complet de 2M pour l’entraînement et l’évaluation à grande échelle. Urban-ImageNet est organisé selon HUSIC, un cadre de classification hiérarchique des images d’espaces urbains qui définit une taxonomie à 10 classes fondée sur la théorie urbaine. Cette taxonomie est conçue pour distinguer les espaces publics activés et non activés, les environnements urbains extérieurs et intérieurs, les espaces d’hébergement, le contenu de consommation, les portraits, et le contenu non spatial des réseaux sociaux. Plutôt que de traiter les images urbaines comme des données scéniques génériques, Urban-ImageNet évalue si les modèles de perception machine peuvent capturer des distinctions spatiales, sociales et fonctionnelles essentielles aux études urbaines. Le benchmark prend en charge trois tâches au sein d’une bibliothèque standardisée : (T1) classification sémantique des scènes urbaines, (T2) récupération intermodale image-texte, et (T3) segmentation d’instances. Nos expériences évaluent des modèles représentatifs de vision, de vision-langage et de segmentation, révélant de bonnes performances sur la classification supervisée de scènes, mais un comportement plus difficile en récupération intermodale et en segmentation d’objets urbains au niveau des instances. Une étude multi-échelle examine en outre comment les performances des modèles évoluent lorsque les données d’entraînement équilibrées passent de 1K à 10K puis à 100K images. Urban-ImageNet fournit un benchmark unifié, fondé sur la théorie et multi-villes, pour évaluer la manière dont les systèmes d’IA perçoivent et interprètent les espaces urbains contemporains à travers les modalités, les échelles et les formulations de tâches. L’ensemble de données et le benchmark sont disponibles à l’adresse : huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet et github.com/yiasun/dataset-2.
English
We present Urban-ImageNet, a large-scale multi-modal dataset and evaluation benchmark for urban space perception from user-generated social media imagery. The corpus contains over 2 Million public social media images and paired textual posts collected from Weibo across 61 urban sites in 24 Chinese cities across 2019-2025, with controlled benchmark subsets at 1K, 10K, and 100K scale and a full 2M corpus for large-scale training and evaluation. Urban-ImageNet is organized by HUSIC, a Hierarchical Urban Space Image Classification framework that defines a 10-class taxonomy grounded in urban theory. The taxonomy is designed to distinguish activated and non-activated public spaces, exterior and interior urban environments, accommodation spaces, consumption content, portraits, and non-spatial social-media content. Rather than treating urban imagery as generic scene data, Urban-ImageNet evaluates whether machine perception models can capture spatial, social, and functional distinctions that are central to urban studies. The benchmark supports three tasks within one standardized library: (T1) urban scene semantic classification, (T2) cross-modal image-text retrieval, and (T3) instance segmentation. Our experiments evaluate representative vision, vision-language, and segmentation models, revealing strong performance on supervised scene classification but more challenging behavior in cross-modal retrieval and instance-level urban object segmentation. A multi-scale study further examines how model performance changes as balanced training data increases from 1K, 10K to 100K images. Urban-ImageNet provides a unified, theory-grounded, multi-city benchmark for evaluating how AI systems perceive and interpret contemporary urban spaces across modalities, scales, and task formulations. Dataset and benchmark are available at: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet and github.com/yiasun/dataset-2.