Point-Bind & Point-LLM:マルチモダリティと点群を整合させた3D理解、生成、指示追従のためのフレームワーク
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
September 1, 2023
著者: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI
要旨
本論文では、3D点群と2D画像、言語、音声、ビデオを統合する3DマルチモダリティモデルであるPoint-Bindを紹介します。ImageBindをガイドとして、3Dとマルチモダリティ間の共同埋め込み空間を構築し、any-to-3D生成、3D埋め込み演算、3Dオープンワールド理解など、多くの有望なアプリケーションを可能にします。さらに、3Dマルチモーダル命令に従う最初の3D大規模言語モデル(LLM)であるPoint-LLMを提案します。パラメータ効率の良いファインチューニング技術により、Point-LLMはPoint-BindのセマンティクスをLLaMAなどの事前学習済みLLMに注入し、3D命令データを必要とせずに、優れた3Dおよびマルチモーダル質問応答能力を示します。本研究が、3D点群をマルチモダリティアプリケーションに拡張するためのコミュニティへの一助となることを願っています。コードはhttps://github.com/ZiyuGuo99/Point-Bind_Point-LLMで公開されています。
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with
2D image, language, audio, and video. Guided by ImageBind, we construct a joint
embedding space between 3D and multi-modalities, enabling many promising
applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D
open-world understanding. On top of this, we further present Point-LLM, the
first 3D large language model (LLM) following 3D multi-modal instructions. By
parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of
Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction
data, but exhibits superior 3D and multi-modal question-answering capacity. We
hope our work may cast a light on the community for extending 3D point clouds
to multi-modality applications. Code is available at
https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.