ImageBind-LLM: 다중 모달리티 명령어 튜닝
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
저자: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
초록
우리는 ImageBind을 통해 대규모 언어 모델(LLMs)의 다중 모달리티 명령어 튜닝 방법인 ImageBind-LLM을 제안합니다. 기존 연구들은 주로 언어와 이미지 명령어 튜닝에 초점을 맞추고 있는 반면, 우리의 ImageBind-LLM은 오디오, 3D 포인트 클라우드, 비디오 및 이들의 임베딩 공간 연산을 포함한 다중 모달리티 조건에 응답할 수 있습니다. 이는 단순히 이미지-텍스트 정렬 훈련만으로 가능합니다. 훈련 과정에서, 우리는 LLaMA와 ImageBind의 이미지 인코더 간의 임베딩 공간을 정렬하기 위해 학습 가능한 바인드 네트워크를 채택합니다. 그런 다음, 바인드 네트워크에 의해 변환된 이미지 특징은 LLaMA의 모든 레이어의 단어 토큰에 추가되어, 주의 메커니즘 없이 제로 초기화된 게이팅 메커니즘을 통해 시각적 명령어를 점진적으로 주입합니다. ImageBind의 공동 임베딩의 도움으로, 단순한 이미지-텍스트 훈련은 우리 모델이 우수한 다중 모달리티 명령어 수행 능력을 보이도록 합니다. 추론 과정에서, 다중 모달리티 입력은 해당 ImageBind 인코더에 입력되고, 제안된 시각적 캐시 모델에 의해 추가적인 교차 모달리티 임베딩 강화를 위해 처리됩니다. 훈련이 필요 없는 이 캐시 모델은 ImageBind에 의해 추출된 3백만 개의 이미지 특징에서 검색하여, 훈련-추론 모달리티 불일치를 효과적으로 완화합니다. 특히, 우리의 접근 방식으로 인해 ImageBind-LLM은 다양한 모달리티의 명령어에 응답할 수 있고, 뛰어난 언어 생성 품질을 보여줍니다. 코드는 https://github.com/OpenGVLab/LLaMA-Adapter에서 공개되었습니다.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.