LLM 3D ancré avec des tokens référents

papers.abstract

Les études précédentes sur la compréhension de scènes 3D ont principalement développé des modèles spécialisés pour des tâches spécifiques ou nécessité un ajustement fin adapté à chaque tâche. Dans cette étude, nous proposons Grounded 3D-LLM, qui explore le potentiel des grands modèles multimodaux 3D (3D LMMs) pour consolider diverses tâches de vision 3D dans un cadre génératif unifié. Le modèle utilise des tokens de référence de scène comme des phrases nominales spéciales pour référencer des scènes 3D, permettant ainsi de gérer des séquences qui entrelacent des données 3D et textuelles. Il offre une approche naturelle pour traduire les tâches de vision 3D en formats langagiers en utilisant des modèles d'instructions spécifiques à chaque tâche. Pour faciliter l'utilisation des tokens de référence dans la modélisation langagière ultérieure, nous avons constitué des ensembles de données langagières ancrées à grande échelle qui offrent une correspondance plus fine entre la scène et le texte au niveau des phrases, en exploitant les étiquettes d'objets existantes. Par la suite, nous avons introduit le pré-entraînement contrastif langage-scène (CLASP) pour exploiter efficacement ces données, intégrant ainsi la vision 3D avec les modèles de langage. Notre évaluation exhaustive couvre des tâches ouvertes comme le sous-titrage dense et les questions-réponses 3D, ainsi que des tâches fermées telles que la détection d'objets et l'ancrage langagier. Les expériences menées sur plusieurs benchmarks 3D révèlent les performances de pointe et la large applicabilité de Grounded 3D-LLM. Le code et les ensembles de données seront publiés sur la page du projet : https://groundedscenellm.github.io/grounded_3d-llm.github.io.

English

Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

LLM 3D ancré avec des tokens référents

Grounded 3D-LLM with Referent Tokens

papers.abstract

Support