Question Answering 3D para Compreensão de Cenas Urbanas
3D Question Answering for City Scene Understanding
July 24, 2024
Autores: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
Resumo
A resposta a perguntas multimodais em 3D (MQA) desempenha um papel crucial na compreensão de cenas ao permitir que agentes inteligentes compreendam seu entorno em ambientes 3D. Enquanto as pesquisas existentes se concentraram principalmente em tarefas domésticas internas e tarefas de direção autônoma em estradas ao ar livre, houve uma exploração limitada de tarefas de compreensão de cenas em nível de cidade. Além disso, as pesquisas existentes enfrentam desafios na compreensão de cenas urbanas, devido à ausência de informações semânticas espaciais e informações de interação humano-ambiente em nível de cidade. Para enfrentar esses desafios, investigamos o MQA em 3D tanto do ponto de vista do conjunto de dados quanto do método. Do ponto de vista do conjunto de dados, introduzimos um novo conjunto de dados 3D MQA chamado City-3DQA para compreensão de cenas em nível de cidade, sendo o primeiro conjunto de dados a incorporar tarefas semânticas de cena e interativas humano-ambiente dentro da cidade. Do ponto de vista do método, propomos um método aprimorado de Compreensão em Nível de Cidade aprimorado por grafo de cena (Sg-CityU), que utiliza o grafo de cena para introduzir a semântica espacial. Um novo benchmark é relatado e nosso Sg-CityU proposto alcança uma precisão de 63,94% e 63,76% em diferentes configurações do City-3DQA. Comparado aos métodos de MQA em 3D internos e ao uso de modelos de linguagem avançados de grande escala (LLMs) de zero-shot, o Sg-CityU demonstra um desempenho de estado da arte (SOTA) em robustez e generalização.
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.Summary
AI-Generated Summary