Question Answering 3D para Compreensão de Cenas Urbanas

Resumo

A resposta a perguntas multimodais em 3D (MQA) desempenha um papel crucial na compreensão de cenas ao permitir que agentes inteligentes compreendam seu entorno em ambientes 3D. Enquanto as pesquisas existentes se concentraram principalmente em tarefas domésticas internas e tarefas de direção autônoma em estradas ao ar livre, houve uma exploração limitada de tarefas de compreensão de cenas em nível de cidade. Além disso, as pesquisas existentes enfrentam desafios na compreensão de cenas urbanas, devido à ausência de informações semânticas espaciais e informações de interação humano-ambiente em nível de cidade. Para enfrentar esses desafios, investigamos o MQA em 3D tanto do ponto de vista do conjunto de dados quanto do método. Do ponto de vista do conjunto de dados, introduzimos um novo conjunto de dados 3D MQA chamado City-3DQA para compreensão de cenas em nível de cidade, sendo o primeiro conjunto de dados a incorporar tarefas semânticas de cena e interativas humano-ambiente dentro da cidade. Do ponto de vista do método, propomos um método aprimorado de Compreensão em Nível de Cidade aprimorado por grafo de cena (Sg-CityU), que utiliza o grafo de cena para introduzir a semântica espacial. Um novo benchmark é relatado e nosso Sg-CityU proposto alcança uma precisão de 63,94% e 63,76% em diferentes configurações do City-3DQA. Comparado aos métodos de MQA em 3D internos e ao uso de modelos de linguagem avançados de grande escala (LLMs) de zero-shot, o Sg-CityU demonstra um desempenho de estado da arte (SOTA) em robustez e generalização.

English

3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.

Question Answering 3D para Compreensão de Cenas Urbanas

3D Question Answering for City Scene Understanding

Resumo

Summary

Support

Support