都市シーン理解のための3D質問応答
3D Question Answering for City Scene Understanding
July 24, 2024
著者: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI
要旨
3Dマルチモーダル質問応答(MQA)は、インテリジェントエージェントが3D環境内で周囲を理解することを可能にすることで、シーン理解において重要な役割を果たします。既存の研究は主に屋内の家庭用タスクや屋外の道路沿いの自動運転タスクに焦点を当ててきましたが、都市レベルのシーン理解タスクの探求は限られています。さらに、既存の研究は、都市レベルでの空間的意味情報や人間と環境の相互作用情報の欠如により、都市シーンの理解に課題を抱えています。これらの課題に対処するため、我々はデータセットと手法の両方の観点から3D MQAを調査します。データセットの観点から、我々は都市レベルのシーン理解のための新しい3D MQAデータセット「City-3DQA」を導入します。これは、都市内でのシーン意味と人間と環境の相互作用タスクを組み込んだ初めてのデータセットです。手法の観点から、我々はシーングラフを活用して空間的意味を導入する「Scene graph enhanced City-level Understanding method(Sg-CityU)」を提案します。新しいベンチマークが報告され、我々が提案するSg-CityUは、City-3DQAの異なる設定で63.94%と63.76%の精度を達成しました。屋内3D MQA手法や先進的な大規模言語モデル(LLM)を使用したゼロショットと比較して、Sg-CityUはロバスト性と汎化性能において最先端(SOTA)の性能を示しています。
English
3D multimodal question answering (MQA) plays a crucial role in scene
understanding by enabling intelligent agents to comprehend their surroundings
in 3D environments. While existing research has primarily focused on indoor
household tasks and outdoor roadside autonomous driving tasks, there has been
limited exploration of city-level scene understanding tasks. Furthermore,
existing research faces challenges in understanding city scenes, due to the
absence of spatial semantic information and human-environment interaction
information at the city level.To address these challenges, we investigate 3D
MQA from both dataset and method perspectives. From the dataset perspective, we
introduce a novel 3D MQA dataset named City-3DQA for city-level scene
understanding, which is the first dataset to incorporate scene semantic and
human-environment interactive tasks within the city. From the method
perspective, we propose a Scene graph enhanced City-level Understanding method
(Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A
new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94
% and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA
methods and zero-shot using advanced large language models (LLMs), Sg-CityU
demonstrates state-of-the-art (SOTA) performance in robustness and
generalization.Summary
AI-Generated Summary