ChatPaper.aiChatPaper

3D-LLM: Интеграция трехмерного мира в большие языковые модели

3D-LLM: Injecting the 3D World into Large Language Models

July 24, 2023
Авторы: Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan
cs.AI

Аннотация

Крупные языковые модели (LLM) и модели, объединяющие зрение и язык (VLM), доказали свою эффективность в решении множества задач, таких как рассуждения на основе здравого смысла. Несмотря на их мощь, эти модели не заземлены в трехмерном физическом мире, который включает более богатые концепции, такие как пространственные отношения, аффордансы, физика, планировка и так далее. В данной работе мы предлагаем внедрить трехмерный мир в крупные языковые модели и представляем новое семейство 3D-LLM. В частности, 3D-LLM могут принимать на вход облака точек и их характеристики, выполняя широкий спектр задач, связанных с 3D, включая генерацию описаний, плотное описание, ответы на вопросы в 3D, декомпозицию задач, локализацию в 3D, диалоги с использованием 3D, навигацию и многое другое. Используя три типа разработанных нами механизмов подсказок, мы смогли собрать более 300 тысяч данных, связывающих 3D и язык, охватывающих эти задачи. Для эффективного обучения 3D-LLM мы сначала используем 3D-экстрактор признаков, который получает 3D-характеристики из рендеренных изображений с нескольких ракурсов. Затем мы используем 2D VLM в качестве основы для обучения наших 3D-LLM. Внедрив механизм 3D-локализации, 3D-LLM могут лучше улавливать пространственную информацию. Эксперименты на данных ScanQA показывают, что наша модель значительно превосходит современные базовые модели (например, показатель BLEU-1 превышает лучший результат на 9%). Кроме того, эксперименты на наших собственных наборах данных для 3D-описаний, композиции задач и диалогов с использованием 3D демонстрируют, что наша модель превосходит 2D VLM. Качественные примеры также показывают, что наша модель способна выполнять задачи, выходящие за рамки существующих LLM и VLM. Страница проекта: https://vis-www.cs.umass.edu/3dllm/.
English
Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.
PDF374December 15, 2024