LLaVA-3D: LMMに3D認識能力を付与するためのシンプルかつ効果的な手法
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
September 26, 2024
著者: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI
要旨
最近の大規模多モーダルモデル(LMMs)の進歩により、2次元ビジュアル理解タスクにおける彼らの能力が大幅に向上し、画像や動画を効果的に処理・理解することが可能となりました。しかし、3次元シーン理解のための3D認識を備えたLMMsの開発は、大規模な3Dビジョン言語データセットと強力な3Dエンコーダーの不足によって妨げられています。本論文では、LLaVA-3Dと呼ばれるシンプルで効果的なフレームワークを紹介します。LLaVAからの強力な2D理解の事前知識を活用し、LLaVA-3Dは2D理解能力を損なうことなく、3Dシーン理解のために効率的にLLaVAを適応させます。これを実現するために、2D CLIPパッチ特徴とそれらの対応する3D空間内の位置を接続する単純かつ効果的な表現である3Dパッチを採用します。3Dパッチを2D LMMsに統合し、2Dおよび3Dビジョン言語指示の調整を行うことで、2D画像理解と3Dシーン理解の両方のための統一されたアーキテクチャを確立します。実験結果によると、LLaVA-3Dは3Dビジョン言語データセットで訓練された際に、既存の3D LMMsよりも3.5倍速く収束することが示されました。さらに、LLaVA-3Dは、さまざまな3Dタスクで最先端のパフォーマンスを達成するだけでなく、LLaVAと同等の2D画像理解およびビジョン言語会話能力を維持しています。
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced
their proficiency in 2D visual understanding tasks, enabling them to
effectively process and understand images and videos. However, the development
of LMMs with 3D-awareness for 3D scene understanding has been hindered by the
lack of large-scale 3D vision-language datasets and powerful 3D encoders. In
this paper, we introduce a simple yet effective framework called LLaVA-3D.
Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D
efficiently adapts LLaVA for 3D scene understanding without compromising 2D
understanding capabilities. To achieve this, we employ a simple yet effective
representation, 3D Patch, which connects 2D CLIP patch features with their
corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs
and employing joint 2D and 3D vision-language instruction tuning, we establish
a unified architecture for both 2D image understanding and 3D scene
understanding. Experimental results show that LLaVA-3D converges 3.5x faster
than existing 3D LMMs when trained on 3D vision-language datasets. Moreover,
LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks
but also maintains comparable 2D image understanding and vision-language
conversation capabilities with LLaVA.Summary
AI-Generated Summary