OpenCity3D: Что знают модели "зрение-язык" о городской среде?
OpenCity3D: What do Vision-Language Models know about Urban Environments?
March 21, 2025
Авторы: Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительный потенциал для понимания 3D-сцен, однако их применение в основном ограничивается внутренними пространствами или задачами автономного вождения, сосредоточенными на низкоуровневых задачах, таких как сегментация. В данной работе мы расширяем их использование до городских масштабов, используя 3D-реконструкции на основе многовидовой аэрофотосъемки. Мы предлагаем OpenCity3D — подход, который решает высокоуровневые задачи, такие как оценка плотности населения, классификация возраста зданий, прогнозирование стоимости недвижимости, оценка уровня преступности и анализ шумового загрязнения. Наши результаты подчеркивают впечатляющие возможности OpenCity3D в условиях zero-shot и few-shot, демонстрируя адаптивность к новым контекстам. Это исследование устанавливает новую парадигму для анализа городской среды с использованием языковых моделей, открывая возможности для применения в планировании, разработке политики и экологическом мониторинге. Подробнее на странице проекта: opencity3d.github.io.
English
Vision-language models (VLMs) show great promise for 3D scene understanding
but are mainly applied to indoor spaces or autonomous driving, focusing on
low-level tasks like segmentation. This work expands their use to urban-scale
environments by leveraging 3D reconstructions from multi-view aerial imagery.
We propose OpenCity3D, an approach that addresses high-level tasks, such as
population density estimation, building age classification, property price
prediction, crime rate assessment, and noise pollution evaluation. Our findings
highlight OpenCity3D's impressive zero-shot and few-shot capabilities,
showcasing adaptability to new contexts. This research establishes a new
paradigm for language-driven urban analytics, enabling applications in
planning, policy, and environmental monitoring. See our project page:
opencity3d.github.ioSummary
AI-Generated Summary