ImageBind-LLM: マルチモダリティ命令チューニング
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
著者: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
要旨
私たちは、ImageBindを介した大規模言語モデル(LLM)のマルチモダリティ命令チューニング手法であるImageBind-LLMを提案します。既存の研究は主に言語と画像の命令チューニングに焦点を当てていますが、それとは異なり、私たちのImageBind-LLMは、音声、3D点群、ビデオ、およびそれらの埋め込み空間演算を含むマルチモダリティ条件に応答することができます。これらは、画像とテキストのアライメント訓練のみによって実現されます。訓練中、私たちはLLaMAとImageBindの画像エンコーダーの間の埋め込み空間を整列させるために学習可能なバインドネットワークを採用します。その後、バインドネットワークによって変換された画像特徴量は、LLaMAのすべての層の単語トークンに追加され、アテンションフリーかつゼロ初期化されたゲーティングメカニズムを介して視覚的指示を段階的に注入します。ImageBindの共同埋め込みの助けを借りて、単純な画像とテキストの訓練により、私たちのモデルは優れたマルチモダリティ命令追従能力を示します。推論中、マルチモダリティ入力は対応するImageBindエンコーダーに供給され、提案されたビジュアルキャッシュモデルによってさらにクロスモーダル埋め込みが強化されます。訓練不要のキャッシュモデルは、ImageBindによって抽出された300万の画像特徴量から検索を行い、訓練と推論のモダリティの不一致を効果的に軽減します。特に、私たちのアプローチにより、ImageBind-LLMは多様なモダリティの命令に応答し、重要な言語生成品質を示すことができます。コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されています。
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.