ChatPaper.aiChatPaper

OpenCity3D : Que savent les modèles vision-langage des environnements urbains ?

OpenCity3D: What do Vision-Language Models know about Urban Environments?

March 21, 2025
Auteurs: Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
cs.AI

Résumé

Les modèles vision-langage (VLMs) montrent un grand potentiel pour la compréhension des scènes 3D, mais sont principalement appliqués aux espaces intérieurs ou à la conduite autonome, en se concentrant sur des tâches de bas niveau comme la segmentation. Ce travail étend leur utilisation aux environnements à l'échelle urbaine en exploitant des reconstructions 3D issues d'images aériennes multi-vues. Nous proposons OpenCity3D, une approche qui aborde des tâches de haut niveau, telles que l'estimation de la densité de population, la classification de l'âge des bâtiments, la prédiction des prix immobiliers, l'évaluation des taux de criminalité et l'évaluation de la pollution sonore. Nos résultats mettent en évidence les impressionnantes capacités zero-shot et few-shot d'OpenCity3D, démontrant son adaptabilité à de nouveaux contextes. Cette recherche établit un nouveau paradigme pour l'analyse urbaine pilotée par le langage, permettant des applications dans la planification, les politiques publiques et la surveillance environnementale. Consultez notre page de projet : opencity3d.github.io
English
Vision-language models (VLMs) show great promise for 3D scene understanding but are mainly applied to indoor spaces or autonomous driving, focusing on low-level tasks like segmentation. This work expands their use to urban-scale environments by leveraging 3D reconstructions from multi-view aerial imagery. We propose OpenCity3D, an approach that addresses high-level tasks, such as population density estimation, building age classification, property price prediction, crime rate assessment, and noise pollution evaluation. Our findings highlight OpenCity3D's impressive zero-shot and few-shot capabilities, showcasing adaptability to new contexts. This research establishes a new paradigm for language-driven urban analytics, enabling applications in planning, policy, and environmental monitoring. See our project page: opencity3d.github.io

Summary

AI-Generated Summary

PDF32March 26, 2025