M3DBench: Lassen Sie uns große Modelle mit multimodalen 3D-Prompts instruieren
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts
December 17, 2023
Autoren: Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen
cs.AI
Zusammenfassung
In letzter Zeit hat das Verständnis von 3D-Daten an Popularität gewonnen, um autonomen Agenten die Durchführung weiterer Entscheidungsprozesse zu erleichtern. Allerdings sind bestehende 3D-Datensätze und Methoden oft auf spezifische Aufgaben beschränkt. Andererseits haben die jüngsten Fortschritte bei Large Language Models (LLMs) und Multimodal Language Models (MLMs) außergewöhnliche Leistungen bei allgemeinen Sprach- und Bildverarbeitungsaufgaben gezeigt. Daher ist es interessant, das Potenzial von MLMs zu erschließen, um sie als 3D-Generalisten für breitere Aufgaben einzusetzen. Allerdings hat sich die aktuelle Forschung zu MLMs weniger auf 3D-Aufgaben konzentriert, was auf den Mangel an groß angelegten 3D-Instruktionsdatensätzen zurückzuführen ist. In dieser Arbeit stellen wir einen umfassenden 3D-Instruktionsdatensatz namens M3DBench vor, der folgende Merkmale aufweist: 1) Er unterstützt allgemeine multimodale Anweisungen, die mit Text, Bildern, 3D-Objekten und anderen visuellen Eingabeaufforderungen verknüpft sind. 2) Er vereint diverse 3D-Aufgaben sowohl auf regionaler als auch auf Szenenebene und deckt eine Vielzahl grundlegender Fähigkeiten in realen 3D-Umgebungen ab. 3) Es handelt sich um einen groß angelegten 3D-Instruktionsdatensatz mit über 320.000 Instruktions-Antwort-Paaren. Darüber hinaus etablieren wir einen neuen Benchmark zur Bewertung der Leistung großer Modelle beim Verständnis multimodaler 3D-Eingabeaufforderungen. Umfangreiche Experimente demonstrieren die Effektivität unseres Datensatzes und der Baseline, die allgemeine 3D-zentrierte Aufgaben unterstützen und zukünftige Forschungen inspirieren können.
English
Recently, 3D understanding has become popular to facilitate autonomous agents
to perform further decisionmaking. However, existing 3D datasets and methods
are often limited to specific tasks. On the other hand, recent progress in
Large Language Models (LLMs) and Multimodal Language Models (MLMs) have
demonstrated exceptional general language and imagery tasking performance.
Therefore, it is interesting to unlock MLM's potential to be 3D generalist for
wider tasks. However, current MLMs' research has been less focused on 3D tasks
due to a lack of large-scale 3D instruction-following datasets. In this work,
we introduce a comprehensive 3D instructionfollowing dataset called M3DBench,
which possesses the following characteristics: 1) It supports general
multimodal instructions interleaved with text, images, 3D objects, and other
visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels,
covering a variety of fundamental abilities in real-world 3D environments. 3)
It is a large-scale 3D instruction-following dataset with over 320k
instruction-response pairs. Furthermore, we establish a new benchmark for
assessing the performance of large models in understanding multi-modal 3D
prompts. Extensive experiments demonstrate the effectiveness of our dataset and
baseline, supporting general 3D-centric tasks, which can inspire future
research.