Video-3D LLM: 3Dシーン理解のための位置認識ビデオ表現の学習
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding
November 30, 2024
著者: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)の急速な進化は、さまざまなマルチモーダルタスクに大きな影響を与えています。ただし、これらのモデルは、3D環境内での空間理解が必要なタスクにおいて課題に直面しています。ポイントクラウド特徴の組み込みなど、MLLMsを強化する取り組みが行われていますが、モデルが学習した表現と3Dシーンの固有の複雑さとの間にはかなりのギャップが残っています。この相違は、MLLMsの訓練が主に2Dデータに基づいていることから生じており、これが3D空間を理解する際の効果を制限しています。この問題に対処するため、本論文では、3Dシーン理解向けの革新的な汎用モデル、すなわちVideo-3D LLMを提案します。3Dシーンを動的なビデオとして扱い、これらの表現に3D位置エンコーディングを組み込むことで、Video-3D LLMはビデオ表現を現実世界の空間コンテキストとより正確に整合させます。さらに、計算コストと性能効率のバランスを最適化するために最大カバレッジサンプリング技術を実装しました。包括的な実験により、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなどの複数の3Dシーン理解ベンチマークで、当モデルが最先端の性能を達成していることが示されています。
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has
significantly impacted various multimodal tasks. However, these models face
challenges in tasks that require spatial understanding within 3D environments.
Efforts to enhance MLLMs, such as incorporating point cloud features, have been
made, yet a considerable gap remains between the models' learned
representations and the inherent complexity of 3D scenes. This discrepancy
largely stems from the training of MLLMs on predominantly 2D data, which
restricts their effectiveness in comprehending 3D spaces. To address this
issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM,
for 3D scene understanding. By treating 3D scenes as dynamic videos and
incorporating 3D position encoding into these representations, our Video-3D LLM
aligns video representations with real-world spatial contexts more accurately.
Additionally, we have implemented a maximum coverage sampling technique to
optimize the balance between computational costs and performance efficiency.
Extensive experiments demonstrate that our model achieves state-of-the-art
performance on several 3D scene understanding benchmarks, including ScanRefer,
Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.Summary
AI-Generated Summary