M3DBench: Istruiamo i modelli di grandi dimensioni con prompt multi-modali 3D

Abstract

Recentemente, la comprensione 3D è diventata popolare per facilitare gli agenti autonomi nel prendere decisioni ulteriori. Tuttavia, i dataset e i metodi 3D esistenti sono spesso limitati a compiti specifici. D'altra parte, i recenti progressi nei Large Language Models (LLM) e nei Multimodal Language Models (MLM) hanno dimostrato prestazioni eccezionali in compiti linguistici e di elaborazione delle immagini di carattere generale. Pertanto, è interessante sbloccare il potenziale degli MLM per diventare generalisti 3D in compiti più ampi. Tuttavia, la ricerca attuale sugli MLM si è concentrata meno sui compiti 3D a causa della mancanza di dataset su larga scala che seguono istruzioni in 3D. In questo lavoro, introduciamo un dataset completo di istruzioni 3D chiamato M3DBench, che possiede le seguenti caratteristiche: 1) Supporta istruzioni multimodali generali intervallate da testo, immagini, oggetti 3D e altri prompt visivi. 2) Unifica compiti 3D diversificati a livello di regione e di scena, coprendo una varietà di abilità fondamentali in ambienti 3D del mondo reale. 3) È un dataset su larga scala di istruzioni 3D con oltre 320k coppie istruzione-risposta. Inoltre, stabiliamo un nuovo benchmark per valutare le prestazioni dei modelli di grandi dimensioni nella comprensione di prompt multimodali 3D. Esperimenti estesi dimostrano l'efficacia del nostro dataset e della linea di base, supportando compiti generali centrati sul 3D, che possono ispirare future ricerche.

English

Recently, 3D understanding has become popular to facilitate autonomous agents to perform further decisionmaking. However, existing 3D datasets and methods are often limited to specific tasks. On the other hand, recent progress in Large Language Models (LLMs) and Multimodal Language Models (MLMs) have demonstrated exceptional general language and imagery tasking performance. Therefore, it is interesting to unlock MLM's potential to be 3D generalist for wider tasks. However, current MLMs' research has been less focused on 3D tasks due to a lack of large-scale 3D instruction-following datasets. In this work, we introduce a comprehensive 3D instructionfollowing dataset called M3DBench, which possesses the following characteristics: 1) It supports general multimodal instructions interleaved with text, images, 3D objects, and other visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels, covering a variety of fundamental abilities in real-world 3D environments. 3) It is a large-scale 3D instruction-following dataset with over 320k instruction-response pairs. Furthermore, we establish a new benchmark for assessing the performance of large models in understanding multi-modal 3D prompts. Extensive experiments demonstrate the effectiveness of our dataset and baseline, supporting general 3D-centric tasks, which can inspire future research.