LLM 3D Fundamentado com Tokens de Referência
Grounded 3D-LLM with Referent Tokens
May 16, 2024
Autores: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI
Resumo
Estudos anteriores sobre compreensão de cenas 3D desenvolveram principalmente modelos especializados para tarefas específicas ou exigiram ajustes finos específicos para cada tarefa. Neste estudo, propomos o Grounded 3D-LLM, que explora o potencial dos grandes modelos multimodais 3D (3D LMMs) para consolidar várias tarefas de visão 3D em um framework generativo unificado. O modelo utiliza tokens de referência de cena como frases nominais especiais para referenciar cenas 3D, permitindo o processamento de sequências que intercalam dados 3D e textuais. Ele oferece uma abordagem natural para traduzir tarefas de visão 3D em formatos de linguagem usando modelos de instrução específicos para cada tarefa. Para facilitar o uso de tokens de referência na modelagem de linguagem subsequente, organizamos grandes conjuntos de dados de linguagem fundamentada que oferecem correspondência mais detalhada entre cena e texto no nível de frases, aproveitando rótulos de objetos existentes. Posteriormente, introduzimos o Pré-treinamento Contrastivo de Linguagem-Cena (CLASP) para aproveitar efetivamente esses dados, integrando assim a visão 3D com modelos de linguagem. Nossa avaliação abrangente cobre tarefas de resposta aberta, como legendagem densa e QA 3D, juntamente com tarefas de resposta fechada, como detecção de objetos e fundamentação de linguagem. Experimentos em vários benchmarks 3D revelam o desempenho líder e a ampla aplicabilidade do Grounded 3D-LLM. Códigos e conjuntos de dados serão disponibilizados na página do projeto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized
models for specific tasks or required task-specific fine-tuning. In this study,
we propose Grounded 3D-LLM, which explores the potential of 3D large
multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a
unified generative framework. The model uses scene referent tokens as special
noun phrases to reference 3D scenes, enabling the handling of sequences that
interleave 3D and textual data. It offers a natural approach for translating 3D
vision tasks into language formats using task-specific instruction templates.
To facilitate the use of referent tokens in subsequent language modeling, we
have curated large-scale grounded language datasets that offer finer scene-text
correspondence at the phrase level by bootstrapping existing object labels.
Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to
effectively leverage this data, thereby integrating 3D vision with language
models. Our comprehensive evaluation covers open-ended tasks like dense
captioning and 3D QA, alongside close-ended tasks such as object detection and
language grounding. Experiments across multiple 3D benchmarks reveal the
leading performance and the broad applicability of Grounded 3D-LLM. Code and
datasets will be released on the project page:
https://groundedscenellm.github.io/grounded_3d-llm.github.io.