ChatPaper.aiChatPaper

도시 장면 이해를 위한 3D 질의응답

3D Question Answering for City Scene Understanding

July 24, 2024
저자: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu
cs.AI

초록

3D 다중모드 질의응답(MQA)은 지능형 에이전트가 3D 환경에서 주변을 이해할 수 있도록 함으로써 장면 이해에 중요한 역할을 합니다. 기존 연구는 주로 실내 가정용 작업과 도로 자율 주행 작업에 초점을 맞추었지만, 도시 수준의 장면 이해 작업에 대한 탐구는 제한적이었습니다. 더욱이, 기존 연구는 도시 수준에서 공간적 의미 정보와 인간-환경 상호작용 정보가 부족하여 도시 장면을 이해하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 데이터셋과 방법론적 관점에서 3D MQA를 조사합니다. 데이터셋 관점에서, 우리는 도시 수준의 장면 이해를 위한 새로운 3D MQA 데이터셋인 City-3DQA를 소개합니다. 이는 도시 내에서 장면 의미와 인간-환경 상호작용 작업을 통합한 최초의 데이터셋입니다. 방법론적 관점에서, 우리는 장면 그래프를 활용하여 공간적 의미를 도입하는 Scene graph enhanced City-level Understanding 방법(Sg-CityU)을 제안합니다. 새로운 벤치마크가 보고되었으며, 우리가 제안한 Sg-CityU는 City-3DQA의 다양한 설정에서 63.94%와 63.76%의 정확도를 달성했습니다. 실내 3D MQA 방법과 고급 대형 언어 모델(LLM)을 사용한 제로샷 접근법과 비교했을 때, Sg-CityU는 견고성과 일반화 측면에서 최첨단(SOTA) 성능을 보여줍니다.
English
3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.

Summary

AI-Generated Summary

PDF225November 28, 2024