Urban-ImageNet: Ein großskaliger multimodaler Datensatz und Evaluierungsrahmen zur Wahrnehmung urbaner Räume

Zusammenfassung

Wir präsentieren Urban-ImageNet, einen groß angelegten multimodalen Datensatz und Evaluationsbenchmark für die Wahrnehmung urbaner Räume anhand von nutzergenerierten Social-Media-Bildern. Das Korpus umfasst über 2 Millionen öffentliche Social-Media-Bilder und dazugehörige Textbeiträge, die von 2019 bis 2025 über Weibo an 61 städtischen Standorten in 24 chinesischen Städten gesammelt wurden, mit kontrollierten Benchmark-Teil Mengen im Umfang von 1K, 10K und 100K sowie dem vollständigen 2M-Korpus für groß angelegtes Training und Evaluation. Urban-ImageNet ist nach HUSIC (Hierarchical Urban Space Image Classification) organisiert, einem hierarchischen Klassifikationsrahmen für urbane Raumbilder, der eine auf der Stadtforschung basierende Taxonomie mit zehn Klassen definiert. Die Taxonomie ist darauf ausgelegt, aktivierte und nicht-aktivierte öffentliche Räume, äußere und innere städtische Umgebungen, Unterkunftsräume, Konsuminhalte, Porträts sowie nicht-räumliche Social-Media-Inhalte zu unterscheiden. Anstatt urbane Bilder als generische Szenendaten zu behandeln, bewertet Urban-ImageNet, ob maschinelle Wahrnehmungsmodelle räumliche, soziale und funktionale Unterscheidungen erfassen können, die für die Stadtforschung zentral sind. Der Benchmark unterstützt drei Aufgaben innerhalb einer standardisierten Bibliothek: (T1) semantische Klassifikation urbaner Szenen, (T2) multimodales Bild-Text-Retrieval und (T3) Instanzsegmentierung. Unsere Experimente evaluieren repräsentative Vision-, Vision-Language- und Segmentierungsmodelle und zeigen eine starke Leistung bei der überwachten Szenenklassifikation, aber herausfordernderes Verhalten beim multimodalen Retrieval und der instanzbezogenen Segmentierung urbaner Objekte. Eine Multiskalen-Studie untersucht zudem, wie sich die Modellleistung verändert, wenn ausbalancierte Trainingsdaten von 1K über 10K auf 100K Bilder ansteigen. Urban-ImageNet bietet einen einheitlichen, theoriegestützten, multistädtischen Benchmark zur Bewertung, wie KI-Systeme zeitgenössische urbane Räume über Modalitäten, Skalen und Aufgabenformulierungen hinweg wahrnehmen und interpretieren. Datensatz und Benchmark sind verfügbar unter: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet und github.com/yiasun/dataset-2.

English

We present Urban-ImageNet, a large-scale multi-modal dataset and evaluation benchmark for urban space perception from user-generated social media imagery. The corpus contains over 2 Million public social media images and paired textual posts collected from Weibo across 61 urban sites in 24 Chinese cities across 2019-2025, with controlled benchmark subsets at 1K, 10K, and 100K scale and a full 2M corpus for large-scale training and evaluation. Urban-ImageNet is organized by HUSIC, a Hierarchical Urban Space Image Classification framework that defines a 10-class taxonomy grounded in urban theory. The taxonomy is designed to distinguish activated and non-activated public spaces, exterior and interior urban environments, accommodation spaces, consumption content, portraits, and non-spatial social-media content. Rather than treating urban imagery as generic scene data, Urban-ImageNet evaluates whether machine perception models can capture spatial, social, and functional distinctions that are central to urban studies. The benchmark supports three tasks within one standardized library: (T1) urban scene semantic classification, (T2) cross-modal image-text retrieval, and (T3) instance segmentation. Our experiments evaluate representative vision, vision-language, and segmentation models, revealing strong performance on supervised scene classification but more challenging behavior in cross-modal retrieval and instance-level urban object segmentation. A multi-scale study further examines how model performance changes as balanced training data increases from 1K, 10K to 100K images. Urban-ImageNet provides a unified, theory-grounded, multi-city benchmark for evaluating how AI systems perceive and interpret contemporary urban spaces across modalities, scales, and task formulations. Dataset and benchmark are available at: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet and github.com/yiasun/dataset-2.

Urban-ImageNet: Ein großskaliger multimodaler Datensatz und Evaluierungsrahmen zur Wahrnehmung urbaner Räume

Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

Zusammenfassung

Support