ChatPaper.aiChatPaper

M3DBench: 다중 모달 3D 프롬프트로 대규모 모델을 지시해 보자

M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts

December 17, 2023
저자: Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen
cs.AI

초록

최근, 자율 에이전트가 더 나은 의사결정을 수행할 수 있도록 3D 이해가 주목받고 있다. 그러나 기존의 3D 데이터셋과 방법론은 특정 작업에 한정되는 경우가 많다. 반면, 대형 언어 모델(LLMs)과 다중 모달 언어 모델(MLMs)의 최근 발전은 일반 언어 및 이미지 작업에서 탁월한 성능을 보여주었다. 따라서 MLM의 잠재력을 활용하여 더 넓은 범위의 작업을 위한 3D 일반주의자로 만드는 것은 흥미로운 주제이다. 그러나 현재 MLM 연구는 대규모 3D 명령 수행 데이터셋의 부족으로 인해 3D 작업에 덜 초점을 맞추고 있다. 본 연구에서는 M3DBench라는 포괄적인 3D 명령 수행 데이터셋을 소개한다. 이 데이터셋은 다음과 같은 특징을 가진다: 1) 텍스트, 이미지, 3D 객체 및 기타 시각적 프롬프트가 교차된 일반적인 다중 모달 명령을 지원한다. 2) 지역 및 장면 수준에서 다양한 3D 작업을 통합하며, 실제 3D 환경에서의 다양한 기본 능력을 다룬다. 3) 320,000개 이상의 명령-응답 쌍으로 구성된 대규모 3D 명령 수행 데이터셋이다. 또한, 다중 모달 3D 프롬프트 이해에서 대형 모델의 성능을 평가하기 위한 새로운 벤치마크를 구축하였다. 광범위한 실험을 통해 우리의 데이터셋과 베이스라인이 일반적인 3D 중심 작업을 지원하는 데 효과적임을 입증하였으며, 이는 향후 연구에 영감을 줄 수 있을 것이다.
English
Recently, 3D understanding has become popular to facilitate autonomous agents to perform further decisionmaking. However, existing 3D datasets and methods are often limited to specific tasks. On the other hand, recent progress in Large Language Models (LLMs) and Multimodal Language Models (MLMs) have demonstrated exceptional general language and imagery tasking performance. Therefore, it is interesting to unlock MLM's potential to be 3D generalist for wider tasks. However, current MLMs' research has been less focused on 3D tasks due to a lack of large-scale 3D instruction-following datasets. In this work, we introduce a comprehensive 3D instructionfollowing dataset called M3DBench, which possesses the following characteristics: 1) It supports general multimodal instructions interleaved with text, images, 3D objects, and other visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels, covering a variety of fundamental abilities in real-world 3D environments. 3) It is a large-scale 3D instruction-following dataset with over 320k instruction-response pairs. Furthermore, we establish a new benchmark for assessing the performance of large models in understanding multi-modal 3D prompts. Extensive experiments demonstrate the effectiveness of our dataset and baseline, supporting general 3D-centric tasks, which can inspire future research.
PDF191December 15, 2024