ChatPaper.aiChatPaper

3D-LLM: Integration der 3D-Welt in große Sprachmodelle

3D-LLM: Injecting the 3D World into Large Language Models

July 24, 2023
Autoren: Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) und Vision-Sprach-Modelle (VLMs) haben sich als hervorragend bei einer Vielzahl von Aufgaben erwiesen, wie beispielsweise dem gesunden Menschenverstand. So leistungsstark diese Modelle auch sein mögen, sie sind nicht in der 3D-physischen Welt verankert, die reichhaltigere Konzepte wie räumliche Beziehungen, Affordanzen, Physik, Layout und so weiter umfasst. In dieser Arbeit schlagen wir vor, die 3D-Welt in große Sprachmodelle zu integrieren und eine völlig neue Familie von 3D-LLMs einzuführen. Konkret können 3D-LLMs 3D-Punktwolken und deren Merkmale als Eingabe verwenden und eine Vielzahl von 3D-bezogenen Aufgaben ausführen, darunter Beschriftung, dichte Beschriftung, 3D-Fragebeantwortung, Aufgabenzerlegung, 3D-Verankerung, 3D-unterstützter Dialog, Navigation und so weiter. Mit drei von uns entwickelten Prompting-Mechanismen konnten wir über 300k 3D-Sprach-Daten sammeln, die diese Aufgaben abdecken. Um 3D-LLMs effizient zu trainieren, verwenden wir zunächst einen 3D-Merkmal-Extraktor, der 3D-Merkmale aus gerenderten Multi-View-Bildern erhält. Anschließend nutzen wir 2D-VLMs als Rückgrat, um unsere 3D-LLMs zu trainieren. Durch die Einführung eines 3D-Lokalisierungsmechanismus können 3D-LLMs 3D-räumliche Informationen besser erfassen. Experimente auf ScanQA zeigen, dass unser Modell die state-of-the-art Baselines deutlich übertrifft (z.B. übertrifft der BLEU-1-Score den state-of-the-art-Score um 9%). Darüber hinaus zeigen Experimente auf unseren zurückgehaltenen Datensätzen für 3D-Beschriftung, Aufgabenkomposition und 3D-unterstützten Dialog, dass unser Modell 2D-VLMs übertrifft. Qualitative Beispiele zeigen auch, dass unser Modell mehr Aufgaben ausführen kann, die über den Rahmen bestehender LLMs und VLMs hinausgehen. Projektseite: https://vis-www.cs.umass.edu/3dllm/.
English
Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.
PDF374December 15, 2024