OpenCity3D: ¿Qué saben los modelos de visión y lenguaje sobre los entornos urbanos?
OpenCity3D: What do Vision-Language Models know about Urban Environments?
March 21, 2025
Autores: Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs) muestran un gran potencial para la comprensión de escenas 3D, pero se aplican principalmente a espacios interiores o a la conducción autónoma, centrándose en tareas de bajo nivel como la segmentación. Este trabajo amplía su uso a entornos de escala urbana aprovechando reconstrucciones 3D a partir de imágenes aéreas multivista. Proponemos OpenCity3D, un enfoque que aborda tareas de alto nivel, como la estimación de densidad de población, la clasificación de la antigüedad de los edificios, la predicción del precio de las propiedades, la evaluación de las tasas de criminalidad y la medición de la contaminación acústica. Nuestros hallazgos destacan las impresionantes capacidades de OpenCity3D en escenarios de cero disparos y pocos disparos, demostrando su adaptabilidad a nuevos contextos. Esta investigación establece un nuevo paradigma para el análisis urbano impulsado por el lenguaje, permitiendo aplicaciones en planificación, políticas y monitoreo ambiental. Visite nuestra página del proyecto: opencity3d.github.io.
English
Vision-language models (VLMs) show great promise for 3D scene understanding
but are mainly applied to indoor spaces or autonomous driving, focusing on
low-level tasks like segmentation. This work expands their use to urban-scale
environments by leveraging 3D reconstructions from multi-view aerial imagery.
We propose OpenCity3D, an approach that addresses high-level tasks, such as
population density estimation, building age classification, property price
prediction, crime rate assessment, and noise pollution evaluation. Our findings
highlight OpenCity3D's impressive zero-shot and few-shot capabilities,
showcasing adaptability to new contexts. This research establishes a new
paradigm for language-driven urban analytics, enabling applications in
planning, policy, and environmental monitoring. See our project page:
opencity3d.github.ioSummary
AI-Generated Summary