ChatPaper.aiChatPaper

OpenCity3D: ¿Qué saben los modelos de visión y lenguaje sobre los entornos urbanos?

OpenCity3D: What do Vision-Language Models know about Urban Environments?

March 21, 2025
Autores: Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
cs.AI

Resumen

Los modelos de visión-lenguaje (VLMs) muestran un gran potencial para la comprensión de escenas 3D, pero se aplican principalmente a espacios interiores o a la conducción autónoma, centrándose en tareas de bajo nivel como la segmentación. Este trabajo amplía su uso a entornos de escala urbana aprovechando reconstrucciones 3D a partir de imágenes aéreas multivista. Proponemos OpenCity3D, un enfoque que aborda tareas de alto nivel, como la estimación de densidad de población, la clasificación de la antigüedad de los edificios, la predicción del precio de las propiedades, la evaluación de las tasas de criminalidad y la medición de la contaminación acústica. Nuestros hallazgos destacan las impresionantes capacidades de OpenCity3D en escenarios de cero disparos y pocos disparos, demostrando su adaptabilidad a nuevos contextos. Esta investigación establece un nuevo paradigma para el análisis urbano impulsado por el lenguaje, permitiendo aplicaciones en planificación, políticas y monitoreo ambiental. Visite nuestra página del proyecto: opencity3d.github.io.
English
Vision-language models (VLMs) show great promise for 3D scene understanding but are mainly applied to indoor spaces or autonomous driving, focusing on low-level tasks like segmentation. This work expands their use to urban-scale environments by leveraging 3D reconstructions from multi-view aerial imagery. We propose OpenCity3D, an approach that addresses high-level tasks, such as population density estimation, building age classification, property price prediction, crime rate assessment, and noise pollution evaluation. Our findings highlight OpenCity3D's impressive zero-shot and few-shot capabilities, showcasing adaptability to new contexts. This research establishes a new paradigm for language-driven urban analytics, enabling applications in planning, policy, and environmental monitoring. See our project page: opencity3d.github.io

Summary

AI-Generated Summary

PDF32March 26, 2025