ChatPaper.aiChatPaper

ImageBind-LLM: マルチモダリティ命令チューニング

ImageBind-LLM: Multi-modality Instruction Tuning

September 7, 2023
著者: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI

要旨

私たちは、ImageBindを介した大規模言語モデル(LLM)のマルチモダリティ命令チューニング手法であるImageBind-LLMを提案します。既存の研究は主に言語と画像の命令チューニングに焦点を当てていますが、それとは異なり、私たちのImageBind-LLMは、音声、3D点群、ビデオ、およびそれらの埋め込み空間演算を含むマルチモダリティ条件に応答することができます。これらは、画像とテキストのアライメント訓練のみによって実現されます。訓練中、私たちはLLaMAとImageBindの画像エンコーダーの間の埋め込み空間を整列させるために学習可能なバインドネットワークを採用します。その後、バインドネットワークによって変換された画像特徴量は、LLaMAのすべての層の単語トークンに追加され、アテンションフリーかつゼロ初期化されたゲーティングメカニズムを介して視覚的指示を段階的に注入します。ImageBindの共同埋め込みの助けを借りて、単純な画像とテキストの訓練により、私たちのモデルは優れたマルチモダリティ命令追従能力を示します。推論中、マルチモダリティ入力は対応するImageBindエンコーダーに供給され、提案されたビジュアルキャッシュモデルによってさらにクロスモーダル埋め込みが強化されます。訓練不要のキャッシュモデルは、ImageBindによって抽出された300万の画像特徴量から検索を行い、訓練と推論のモダリティの不一致を効果的に軽減します。特に、私たちのアプローチにより、ImageBind-LLMは多様なモダリティの命令に応答し、重要な言語生成品質を示すことができます。コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されています。
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
PDF175December 15, 2024