ChatPaper.aiChatPaper

Compréhension de scènes urbaines par question-réponse en 3D

3D Question Answering for City Scene Understanding

July 24, 2024
papers.authors: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI

papers.abstract

Le question-réponse multimodal en 3D (MQA) joue un rôle crucial dans la compréhension des scènes en permettant aux agents intelligents de comprendre leur environnement dans des contextes tridimensionnels. Bien que les recherches existantes se soient principalement concentrées sur les tâches domestiques en intérieur et les tâches de conduite autonome en extérieur, l'exploration des tâches de compréhension des scènes à l'échelle d'une ville reste limitée. De plus, les recherches actuelles rencontrent des difficultés dans la compréhension des scènes urbaines, en raison de l'absence d'informations sémantiques spatiales et d'informations sur les interactions humain-environnement à l'échelle de la ville. Pour relever ces défis, nous étudions le MQA 3D à la fois du point de vue des données et des méthodes. Du point de vue des données, nous introduisons un nouveau jeu de données MQA 3D nommé City-3DQA pour la compréhension des scènes à l'échelle de la ville, qui est le premier à intégrer des tâches sémantiques de scène et des tâches d'interaction humain-environnement dans un contexte urbain. Du point de vue des méthodes, nous proposons une méthode de compréhension urbaine améliorée par graphe de scène (Sg-CityU), qui utilise le graphe de scène pour introduire la sémantique spatiale. Un nouveau benchmark est rapporté, et notre méthode Sg-CityU atteint une précision de 63,94 % et 63,76 % dans différentes configurations de City-3DQA. Comparée aux méthodes MQA 3D en intérieur et à l'utilisation en zero-shot de modèles de langage avancés (LLMs), Sg-CityU démontre des performances de pointe (SOTA) en termes de robustesse et de généralisation.
English
3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.
PDF225November 28, 2024