3D Vraagbeantwoording voor het Begrijpen van Stedelijke Scènes
3D Question Answering for City Scene Understanding
July 24, 2024
Auteurs: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
Samenvatting
3D multimodaal vraag-antwoord (MQA) speelt een cruciale rol in het begrijpen van scènes door intelligente agents in staat te stellen hun omgeving in 3D-omgevingen te begrijpen. Hoewel bestaand onderzoek zich voornamelijk heeft gericht op huishoudelijke taken binnenshuis en autonome rijtaakstellingen buitenshuis, is er beperkte verkenning geweest van taken voor het begrijpen van scènes op stadsniveau. Bovendien wordt bestaand onderzoek geconfronteerd met uitdagingen bij het begrijpen van stedelijke scènes, vanwege het ontbreken van ruimtelijke semantische informatie en informatie over mens-omgeving interactie op stadsniveau. Om deze uitdagingen aan te pakken, onderzoeken we 3D MQA vanuit zowel dataset- als methodeperspectief. Vanuit het datasetperspectief introduceren we een nieuwe 3D MQA-dataset genaamd City-3DQA voor het begrijpen van scènes op stadsniveau, wat de eerste dataset is die scènesemantiek en mens-omgeving interactietaken binnen de stad incorporeert. Vanuit het methodeperspectief stellen we een Scene graph enhanced City-level Understanding method (Sg-CityU) voor, die de scene graph gebruikt om de ruimtelijke semantiek te introduceren. Een nieuwe benchmark wordt gerapporteerd en onze voorgestelde Sg-CityU behaalt een nauwkeurigheid van 63,94% en 63,76% in verschillende instellingen van City-3DQA. Vergeleken met 3D MQA-methoden binnenshuis en zero-shot gebruik van geavanceerde grote taalmodellen (LLM's), toont Sg-CityU state-of-the-art (SOTA) prestaties in robuustheid en generalisatie.
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.