LLM 3D ancré avec des tokens référents
Grounded 3D-LLM with Referent Tokens
May 16, 2024
Auteurs: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI
Résumé
Les études précédentes sur la compréhension de scènes 3D ont principalement développé des modèles spécialisés pour des tâches spécifiques ou nécessité un ajustement fin adapté à chaque tâche. Dans cette étude, nous proposons Grounded 3D-LLM, qui explore le potentiel des grands modèles multimodaux 3D (3D LMMs) pour consolider diverses tâches de vision 3D dans un cadre génératif unifié. Le modèle utilise des tokens de référence de scène comme des phrases nominales spéciales pour référencer des scènes 3D, permettant ainsi de gérer des séquences qui entrelacent des données 3D et textuelles. Il offre une approche naturelle pour traduire les tâches de vision 3D en formats langagiers en utilisant des modèles d'instructions spécifiques à chaque tâche. Pour faciliter l'utilisation des tokens de référence dans la modélisation langagière ultérieure, nous avons constitué des ensembles de données langagières ancrées à grande échelle qui offrent une correspondance plus fine entre la scène et le texte au niveau des phrases, en exploitant les étiquettes d'objets existantes. Par la suite, nous avons introduit le pré-entraînement contrastif langage-scène (CLASP) pour exploiter efficacement ces données, intégrant ainsi la vision 3D avec les modèles de langage. Notre évaluation exhaustive couvre des tâches ouvertes comme le sous-titrage dense et les questions-réponses 3D, ainsi que des tâches fermées telles que la détection d'objets et l'ancrage langagier. Les expériences menées sur plusieurs benchmarks 3D révèlent les performances de pointe et la large applicabilité de Grounded 3D-LLM. Le code et les ensembles de données seront publiés sur la page du projet : https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized
models for specific tasks or required task-specific fine-tuning. In this study,
we propose Grounded 3D-LLM, which explores the potential of 3D large
multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a
unified generative framework. The model uses scene referent tokens as special
noun phrases to reference 3D scenes, enabling the handling of sequences that
interleave 3D and textual data. It offers a natural approach for translating 3D
vision tasks into language formats using task-specific instruction templates.
To facilitate the use of referent tokens in subsequent language modeling, we
have curated large-scale grounded language datasets that offer finer scene-text
correspondence at the phrase level by bootstrapping existing object labels.
Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to
effectively leverage this data, thereby integrating 3D vision with language
models. Our comprehensive evaluation covers open-ended tasks like dense
captioning and 3D QA, alongside close-ended tasks such as object detection and
language grounding. Experiments across multiple 3D benchmarks reveal the
leading performance and the broad applicability of Grounded 3D-LLM. Code and
datasets will be released on the project page:
https://groundedscenellm.github.io/grounded_3d-llm.github.io.Summary
AI-Generated Summary