Gegrond 3D-LLM met Referentietokens
Grounded 3D-LLM with Referent Tokens
May 16, 2024
Auteurs: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI
Samenvatting
Eerdere studies over 3D-scènebegrip hebben voornamelijk gespecialiseerde modellen ontwikkeld voor specifieke taken of vereisten taakspecifieke fine-tuning. In deze studie stellen we Grounded 3D-LLM voor, dat het potentieel van 3D grote multimodale modellen (3D LMMs) onderzoekt om verschillende 3D-visietaken te consolideren binnen een uniform generatief kader. Het model gebruikt scène-referentietokens als speciale zelfstandige naamwoorden om te verwijzen naar 3D-scènes, waardoor het mogelijk wordt om sequenties te verwerken die 3D- en tekstuele data interleaven. Het biedt een natuurlijke aanpak voor het vertalen van 3D-visietaken naar taalformaten met behulp van taakspecifieke instructiesjablonen. Om het gebruik van referentietokens in daaropvolgende taalmodellering te vergemakkelijken, hebben we grootschalige gegronde taaldatasets samengesteld die een fijnere scène-tekstcorrespondentie op zinsniveau bieden door bestaande objectlabels te bootstrappen. Vervolgens hebben we Contrastive LAnguage-Scene Pre-training (CLASP) geïntroduceerd om deze data effectief te benutten, waardoor 3D-visie wordt geïntegreerd met taalmodellen. Onze uitgebreide evaluatie omvat open-eindtaken zoals dense captioning en 3D QA, naast gesloten-eindtaken zoals objectdetectie en taalgrounding. Experimenten over meerdere 3D-benchmarks onthullen de toonaangevende prestaties en de brede toepasbaarheid van Grounded 3D-LLM. Code en datasets zullen worden vrijgegeven op de projectpagina: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized
models for specific tasks or required task-specific fine-tuning. In this study,
we propose Grounded 3D-LLM, which explores the potential of 3D large
multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a
unified generative framework. The model uses scene referent tokens as special
noun phrases to reference 3D scenes, enabling the handling of sequences that
interleave 3D and textual data. It offers a natural approach for translating 3D
vision tasks into language formats using task-specific instruction templates.
To facilitate the use of referent tokens in subsequent language modeling, we
have curated large-scale grounded language datasets that offer finer scene-text
correspondence at the phrase level by bootstrapping existing object labels.
Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to
effectively leverage this data, thereby integrating 3D vision with language
models. Our comprehensive evaluation covers open-ended tasks like dense
captioning and 3D QA, alongside close-ended tasks such as object detection and
language grounding. Experiments across multiple 3D benchmarks reveal the
leading performance and the broad applicability of Grounded 3D-LLM. Code and
datasets will be released on the project page:
https://groundedscenellm.github.io/grounded_3d-llm.github.io.