ChatPaper.aiChatPaper

Risposta a Domande 3D per la Comprensione di Scene Urbane

3D Question Answering for City Scene Understanding

July 24, 2024
Autori: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI

Abstract

Il question answering multimodale 3D (MQA) svolge un ruolo cruciale nella comprensione delle scene, consentendo agli agenti intelligenti di comprendere il loro ambiente in contesti tridimensionali. Mentre la ricerca esistente si è principalmente concentrata su compiti domestici in ambienti interni e su attività di guida autonoma stradale in ambienti esterni, l'esplorazione delle attività di comprensione delle scene a livello cittadino è stata limitata. Inoltre, la ricerca esistente affronta sfide nella comprensione delle scene urbane, a causa dell'assenza di informazioni semantiche spaziali e di interazione uomo-ambiente a livello cittadino. Per affrontare queste sfide, investigiamo il 3D MQA sia dal punto di vista del dataset che del metodo. Dal punto di vista del dataset, introduciamo un nuovo dataset 3D MQA chiamato City-3DQA per la comprensione delle scene a livello cittadino, che è il primo dataset a incorporare compiti semantici delle scene e di interazione uomo-ambiente all'interno della città. Dal punto di vista del metodo, proponiamo un metodo di comprensione a livello cittadino potenziato da grafo di scene (Sg-CityU), che utilizza il grafo di scene per introdurre la semantica spaziale. Viene riportato un nuovo benchmark e il nostro metodo Sg-CityU raggiunge un'accuratezza del 63,94% e del 63,76% in diverse configurazioni di City-3DQA. Rispetto ai metodi 3D MQA per ambienti interni e all'uso zero-shot di modelli linguistici avanzati (LLM), Sg-CityU dimostra prestazioni all'avanguardia (SOTA) in termini di robustezza e generalizzazione.
English
3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.
PDF225November 28, 2024