参照トークンを備えたグラウンディング3D-LLM
Grounded 3D-LLM with Referent Tokens
May 16, 2024
著者: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI
要旨
3Dシーン理解に関する従来の研究では、特定のタスクに特化したモデルの開発や、タスク固有のファインチューニングが主に行われてきました。本研究では、Grounded 3D-LLMを提案し、3D大規模マルチモーダルモデル(3D LMMs)の可能性を探り、様々な3D視覚タスクを統一的生成フレームワーク内で統合することを目指します。このモデルは、シーン参照トークンを特別な名詞句として使用し、3Dシーンを参照することで、3Dデータとテキストデータが交互に現れるシーケンスを処理できるようにします。また、タスク固有の指示テンプレートを使用して、3D視覚タスクを言語形式に変換する自然なアプローチを提供します。参照トークンを後続の言語モデリングで活用するために、既存のオブジェクトラベルをブートストラップすることで、フレーズレベルでの詳細なシーンとテキストの対応を提供する大規模なグラウンディング言語データセットを整備しました。その後、Contrastive LAnguage-Scene Pre-training(CLASP)を導入し、このデータを効果的に活用することで、3D視覚と言語モデルを統合しました。我々の包括的な評価は、密なキャプショニングや3D QAなどのオープンエンドタスクに加えて、物体検出や言語グラウンディングなどのクローズドエンドタスクもカバーしています。複数の3Dベンチマークでの実験により、Grounded 3D-LLMの優れた性能と幅広い適用性が明らかになりました。コードとデータセットはプロジェクトページで公開されます:https://groundedscenellm.github.io/grounded_3d-llm.github.io。
English
Prior studies on 3D scene understanding have primarily developed specialized
models for specific tasks or required task-specific fine-tuning. In this study,
we propose Grounded 3D-LLM, which explores the potential of 3D large
multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a
unified generative framework. The model uses scene referent tokens as special
noun phrases to reference 3D scenes, enabling the handling of sequences that
interleave 3D and textual data. It offers a natural approach for translating 3D
vision tasks into language formats using task-specific instruction templates.
To facilitate the use of referent tokens in subsequent language modeling, we
have curated large-scale grounded language datasets that offer finer scene-text
correspondence at the phrase level by bootstrapping existing object labels.
Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to
effectively leverage this data, thereby integrating 3D vision with language
models. Our comprehensive evaluation covers open-ended tasks like dense
captioning and 3D QA, alongside close-ended tasks such as object detection and
language grounding. Experiments across multiple 3D benchmarks reveal the
leading performance and the broad applicability of Grounded 3D-LLM. Code and
datasets will be released on the project page:
https://groundedscenellm.github.io/grounded_3d-llm.github.io.Summary
AI-Generated Summary