Respuesta a preguntas en 3D para la comprensión de escenas urbanas
3D Question Answering for City Scene Understanding
July 24, 2024
Autores: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
Resumen
La pregunta y respuesta multimodal en 3D (MQA) desempeña un papel crucial en la comprensión de escenas al permitir que agentes inteligentes comprendan su entorno en entornos 3D. Si bien la investigación existente se ha centrado principalmente en tareas domésticas en interiores y tareas de conducción autónoma en carreteras al aire libre, ha habido una exploración limitada de tareas de comprensión de escenas a nivel de ciudad. Además, la investigación existente enfrenta desafíos en la comprensión de escenas urbanas, debido a la ausencia de información semántica espacial e información de interacción humano-entorno a nivel de ciudad. Para abordar estos desafíos, investigamos la MQA en 3D desde perspectivas tanto de conjunto de datos como de método. Desde la perspectiva del conjunto de datos, presentamos un nuevo conjunto de datos de MQA en 3D llamado City-3DQA para la comprensión de escenas a nivel de ciudad, que es el primer conjunto de datos en incorporar tareas semánticas de escena e interactivas humano-entorno dentro de la ciudad. Desde la perspectiva del método, proponemos un método mejorado de comprensión a nivel de ciudad mediante grafos de escena (Sg-CityU), que utiliza el grafo de escena para introducir la semántica espacial. Se informa un nuevo punto de referencia y nuestro método propuesto Sg-CityU logra una precisión del 63.94 % y del 63.76 % en diferentes configuraciones de City-3DQA. En comparación con los métodos de MQA en 3D en interiores y el uso de modelos de lenguaje avanzados (LLMs) de gran tamaño en cero disparos, Sg-CityU demuestra un rendimiento de última generación (SOTA) en robustez y generalización.
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.Summary
AI-Generated Summary