3D Frage-Antwort für das Verständnis städtischer Szenen
3D Question Answering for City Scene Understanding
July 24, 2024
Autoren: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
Zusammenfassung
Die 3D Multimodale Fragebeantwortung (MQA) spielt eine entscheidende Rolle bei der Szenenverständnis, indem intelligente Agenten befähigt werden, ihre Umgebung in 3D-Umgebungen zu verstehen. Während bisherige Forschung hauptsächlich auf Aufgaben im Innenbereich von Haushalten und im autonomen Fahren an Straßenrändern im Freien fokussiert war, gab es nur begrenzte Erkundungen von Aufgaben zum Verständnis von Stadtszenen. Darüber hinaus stehen bestehende Forschungen vor Herausforderungen im Verständnis von Stadtszenen aufgrund des Fehlens von räumlichen semantischen Informationen und Informationen zur Interaktion zwischen Mensch und Umgebung auf Stadtebene. Um diesen Herausforderungen zu begegnen, untersuchen wir 3D MQA aus Datensatz- und Methodenperspektiven. Aus der Datensatzperspektive stellen wir einen neuartigen 3D MQA-Datensatz namens City-3DQA für das Verständnis von Stadtszenen vor, der der erste Datensatz ist, der Szenen-semantische und mensch-umgebungsinteraktive Aufgaben innerhalb der Stadt integriert. Aus der Methodenperspektive schlagen wir eine Methode zur Verbesserung des Stadtebenenverständnisses mit Szenengraphen (Sg-CityU) vor, die den Szenengraphen nutzt, um die räumliche Semantik einzuführen. Ein neuer Benchmark wird vorgestellt, und unser vorgeschlagenes Sg-CityU erreicht Genauigkeiten von 63,94 % und 63,76 % in verschiedenen Einstellungen von City-3DQA. Im Vergleich zu Innenraum-3D-MQA-Methoden und der Null-Schuss-Verwendung von fortschrittlichen großen Sprachmodellen (LLMs) zeigt Sg-CityU eine State-of-the-Art (SOTA)-Leistung in Robustheit und Verallgemeinerung.
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.Summary
AI-Generated Summary