ChatPaper.aiChatPaper

Закрепленная 3D-LLM с референтными токенами

Grounded 3D-LLM with Referent Tokens

May 16, 2024
Авторы: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI

Аннотация

Предыдущие исследования в области понимания трехмерных сцен в основном разрабатывали специализированные модели для конкретных задач или требовали настройки под конкретную задачу. В данном исследовании мы предлагаем Grounded 3D-LLM, который исследует потенциал трехмерных крупномасштабных мульти-модальных моделей (3D LMMs) для объединения различных задач трехмерного зрения в рамках унифицированной генеративной структуры. Модель использует токены сценовых ссылок в качестве специальных именных фраз для ссылки на трехмерные сцены, обеспечивая обработку последовательностей, в которых чередуются трехмерные и текстовые данные. Она предлагает естественный подход для перевода задач трехмерного зрения в языковые форматы с использованием шаблонов инструкций, специфичных для задачи. Для облегчения использования токенов сценовых ссылок в последующем языковом моделировании мы подготовили кураторские крупномасштабные наборы данных с обоснованным языком, которые предлагают более тесное соответствие сцен-текст на уровне фразы путем итеративного использования существующих меток объектов. Впоследствии мы представили Contrastive LAnguage-Scene Pre-training (CLASP) для эффективного использования этих данных, тем самым интегрируя трехмерное зрение с языковыми моделями. Наше всестороннее оценивание включает открытые задачи, такие как плотное описание и 3D QA, наряду с закрытыми задачами, такими как обнаружение объектов и языковое привязывание. Эксперименты на нескольких трехмерных бенчмарках показывают ведущую производительность и широкие возможности Grounded 3D-LLM. Код и наборы данных будут опубликованы на странице проекта: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

Summary

AI-Generated Summary

PDF131December 15, 2024