3D Frage-Antwort für das Verständnis städtischer Szenen

papers.abstract

Die 3D Multimodale Fragebeantwortung (MQA) spielt eine entscheidende Rolle bei der Szenenverständnis, indem intelligente Agenten befähigt werden, ihre Umgebung in 3D-Umgebungen zu verstehen. Während bisherige Forschung hauptsächlich auf Aufgaben im Innenbereich von Haushalten und im autonomen Fahren an Straßenrändern im Freien fokussiert war, gab es nur begrenzte Erkundungen von Aufgaben zum Verständnis von Stadtszenen. Darüber hinaus stehen bestehende Forschungen vor Herausforderungen im Verständnis von Stadtszenen aufgrund des Fehlens von räumlichen semantischen Informationen und Informationen zur Interaktion zwischen Mensch und Umgebung auf Stadtebene. Um diesen Herausforderungen zu begegnen, untersuchen wir 3D MQA aus Datensatz- und Methodenperspektiven. Aus der Datensatzperspektive stellen wir einen neuartigen 3D MQA-Datensatz namens City-3DQA für das Verständnis von Stadtszenen vor, der der erste Datensatz ist, der Szenen-semantische und mensch-umgebungsinteraktive Aufgaben innerhalb der Stadt integriert. Aus der Methodenperspektive schlagen wir eine Methode zur Verbesserung des Stadtebenenverständnisses mit Szenengraphen (Sg-CityU) vor, die den Szenengraphen nutzt, um die räumliche Semantik einzuführen. Ein neuer Benchmark wird vorgestellt, und unser vorgeschlagenes Sg-CityU erreicht Genauigkeiten von 63,94 % und 63,76 % in verschiedenen Einstellungen von City-3DQA. Im Vergleich zu Innenraum-3D-MQA-Methoden und der Null-Schuss-Verwendung von fortschrittlichen großen Sprachmodellen (LLMs) zeigt Sg-CityU eine State-of-the-Art (SOTA)-Leistung in Robustheit und Verallgemeinerung.

English

3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.

3D Frage-Antwort für das Verständnis städtischer Szenen

3D Question Answering for City Scene Understanding

papers.abstract

Support