3D-LLM mit verankerten Referenz-Token
Grounded 3D-LLM with Referent Tokens
May 16, 2024
papers.authors: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI
papers.abstract
Frühere Studien zum Verständnis von 3D-Szenen haben hauptsächlich spezialisierte Modelle für spezifische Aufgaben entwickelt oder erforderten eine aufgabenspezifische Feinabstimmung. In dieser Studie schlagen wir Grounded 3D-LLM vor, das das Potenzial von 3D Large Multi-Modal Models (3D LMMs) erforscht, um verschiedene 3D-Vision-Aufgaben innerhalb eines vereinheitlichten generativen Rahmens zu konsolidieren. Das Modell verwendet Szenenreferenz-Token als spezielle Substantivphrasen, um auf 3D-Szenen zu verweisen, was die Handhabung von Sequenzen ermöglicht, die 3D- und Textdaten miteinander verflechten. Es bietet einen natürlichen Ansatz, um 3D-Vision-Aufgaben in Sprachformate unter Verwendung von aufgaben-spezifischen Anweisungsvorlagen zu übersetzen. Um die Verwendung von Referenz-Token in nachfolgenden Sprachmodellierungen zu erleichtern, haben wir umfangreiche, an Szenen orientierte Sprachdatensätze kuratiert, die eine feinere Szenen-Text-Korrespondenz auf Phrasenebene bieten, indem vorhandene Objektbezeichnungen bootgestrapt werden. Anschließend haben wir Contrastive LAnguage-Scene Pre-training (CLASP) eingeführt, um diese Daten effektiv zu nutzen und somit 3D-Vision mit Sprachmodellen zu integrieren. Unsere umfassende Bewertung umfasst offene Aufgaben wie dichte Bildunterschriften und 3D-Fragen und Antworten, neben geschlossenen Aufgaben wie Objekterkennung und Sprachverankerung. Experimente über mehrere 3D-Benchmarks hinweg zeigen die führende Leistung und die breite Anwendbarkeit von Grounded 3D-LLM. Der Code und die Datensätze werden auf der Projektseite veröffentlicht: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized
models for specific tasks or required task-specific fine-tuning. In this study,
we propose Grounded 3D-LLM, which explores the potential of 3D large
multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a
unified generative framework. The model uses scene referent tokens as special
noun phrases to reference 3D scenes, enabling the handling of sequences that
interleave 3D and textual data. It offers a natural approach for translating 3D
vision tasks into language formats using task-specific instruction templates.
To facilitate the use of referent tokens in subsequent language modeling, we
have curated large-scale grounded language datasets that offer finer scene-text
correspondence at the phrase level by bootstrapping existing object labels.
Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to
effectively leverage this data, thereby integrating 3D vision with language
models. Our comprehensive evaluation covers open-ended tasks like dense
captioning and 3D QA, alongside close-ended tasks such as object detection and
language grounding. Experiments across multiple 3D benchmarks reveal the
leading performance and the broad applicability of Grounded 3D-LLM. Code and
datasets will be released on the project page:
https://groundedscenellm.github.io/grounded_3d-llm.github.io.