Вопросно-ответная система для понимания городской среды в 3D
3D Question Answering for City Scene Understanding
July 24, 2024
Авторы: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
Аннотация
3D мультимодальное вопросно-ответное моделирование (MQA) играет решающую роль в понимании сцен, позволяя интеллектуальным агентам понимать окружающую среду в 3D-пространствах. В то время как существующие исследования в основном сосредоточены на задачах внутри помещений и автономном вождении на улицах, ограниченно исследованы задачи понимания сцен на уровне города. Более того, существующие исследования сталкиваются с проблемами в понимании городских сцен из-за отсутствия пространственной семантической информации и информации обо взаимодействии человека с окружающей средой на уровне города. Для решения этих проблем мы исследуем 3D MQA с точки зрения набора данных и методов. С точки зрения набора данных мы представляем новый набор данных 3D MQA под названием City-3DQA для понимания сцен на уровне города, который является первым набором данных, включающим сценарные семантические и задачи взаимодействия человека с окружающей средой в городе. С точки зрения методов мы предлагаем метод понимания города на уровне сцен, улучшенный сценарным графом (Sg-CityU), который использует сценарный граф для введения пространственной семантики. Докладывается о новом эталоне, и наш предложенный метод Sg-CityU достигает точности 63,94 % и 63,76 % в различных настройках City-3DQA. По сравнению с методами внутри помещений 3D MQA и нулевым обучением с использованием передовых крупных языковых моделей (LLM), Sg-CityU демонстрирует передовую производительность в устойчивости и обобщении.
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.Summary
AI-Generated Summary