ChatPaper.aiChatPaper

3D-LLM : Intégration du monde 3D dans les grands modèles de langage

3D-LLM: Injecting the 3D World into Large Language Models

July 24, 2023
Auteurs: Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan
cs.AI

Résumé

Les grands modèles de langage (LLM) et les modèles vision-langage (VLM) ont démontré leur excellence dans de multiples tâches, telles que le raisonnement de bon sens. Bien que ces modèles soient puissants, ils ne sont pas ancrés dans le monde physique en 3D, qui implique des concepts plus riches tels que les relations spatiales, les affordances, la physique, la disposition, etc. Dans ce travail, nous proposons d'injecter le monde 3D dans les grands modèles de langage et d'introduire une toute nouvelle famille de LLM 3D. Plus précisément, les LLM 3D peuvent prendre en entrée des nuages de points 3D et leurs caractéristiques, et effectuer un ensemble diversifié de tâches liées à la 3D, y compris la description, la description dense, la réponse à des questions en 3D, la décomposition de tâches, l'ancrage en 3D, le dialogue assisté par la 3D, la navigation, etc. En utilisant trois types de mécanismes d'invite que nous avons conçus, nous avons pu collecter plus de 300 000 données 3D-langage couvrant ces tâches. Pour entraîner efficacement les LLM 3D, nous utilisons d'abord un extracteur de caractéristiques 3D qui obtient des caractéristiques 3D à partir d'images multi-vues rendues. Ensuite, nous utilisons des VLM 2D comme base pour entraîner nos LLM 3D. En introduisant un mécanisme de localisation 3D, les LLM 3D peuvent mieux capturer les informations spatiales en 3D. Les expériences sur ScanQA montrent que notre modèle surpasse les meilleures méthodes de référence par une large marge (par exemple, le score BLEU-1 dépasse le meilleur score actuel de 9 %). De plus, les expériences sur nos ensembles de données internes pour la description 3D, la composition de tâches et le dialogue assisté par la 3D montrent que notre modèle surpasse les VLM 2D. Des exemples qualitatifs montrent également que notre modèle peut effectuer plus de tâches que les LLM et VLM existants. Page du projet : https://vis-www.cs.umass.edu/3dllm/.
English
Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.
PDF374December 15, 2024