M3DBench: Istruiamo i modelli di grandi dimensioni con prompt multi-modali 3D
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts
December 17, 2023
Autori: Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen
cs.AI
Abstract
Recentemente, la comprensione 3D è diventata popolare per facilitare gli agenti autonomi nel prendere decisioni ulteriori. Tuttavia, i dataset e i metodi 3D esistenti sono spesso limitati a compiti specifici. D'altra parte, i recenti progressi nei Large Language Models (LLM) e nei Multimodal Language Models (MLM) hanno dimostrato prestazioni eccezionali in compiti linguistici e di elaborazione delle immagini di carattere generale. Pertanto, è interessante sbloccare il potenziale degli MLM per diventare generalisti 3D in compiti più ampi. Tuttavia, la ricerca attuale sugli MLM si è concentrata meno sui compiti 3D a causa della mancanza di dataset su larga scala che seguono istruzioni in 3D. In questo lavoro, introduciamo un dataset completo di istruzioni 3D chiamato M3DBench, che possiede le seguenti caratteristiche: 1) Supporta istruzioni multimodali generali intervallate da testo, immagini, oggetti 3D e altri prompt visivi. 2) Unifica compiti 3D diversificati a livello di regione e di scena, coprendo una varietà di abilità fondamentali in ambienti 3D del mondo reale. 3) È un dataset su larga scala di istruzioni 3D con oltre 320k coppie istruzione-risposta. Inoltre, stabiliamo un nuovo benchmark per valutare le prestazioni dei modelli di grandi dimensioni nella comprensione di prompt multimodali 3D. Esperimenti estesi dimostrano l'efficacia del nostro dataset e della linea di base, supportando compiti generali centrati sul 3D, che possono ispirare future ricerche.
English
Recently, 3D understanding has become popular to facilitate autonomous agents
to perform further decisionmaking. However, existing 3D datasets and methods
are often limited to specific tasks. On the other hand, recent progress in
Large Language Models (LLMs) and Multimodal Language Models (MLMs) have
demonstrated exceptional general language and imagery tasking performance.
Therefore, it is interesting to unlock MLM's potential to be 3D generalist for
wider tasks. However, current MLMs' research has been less focused on 3D tasks
due to a lack of large-scale 3D instruction-following datasets. In this work,
we introduce a comprehensive 3D instructionfollowing dataset called M3DBench,
which possesses the following characteristics: 1) It supports general
multimodal instructions interleaved with text, images, 3D objects, and other
visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels,
covering a variety of fundamental abilities in real-world 3D environments. 3)
It is a large-scale 3D instruction-following dataset with over 320k
instruction-response pairs. Furthermore, we establish a new benchmark for
assessing the performance of large models in understanding multi-modal 3D
prompts. Extensive experiments demonstrate the effectiveness of our dataset and
baseline, supporting general 3D-centric tasks, which can inspire future
research.