ImageBind-LLM: Ajuste de Instrução Multimodal
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
Autores: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
Resumo
Apresentamos o ImageBind-LLM, um método de ajuste de instrução multimodal para grandes modelos de linguagem (LLMs) via ImageBind. Trabalhos existentes focam principalmente no ajuste de instruções de linguagem e imagem, ao contrário dos quais, nosso ImageBind-LLM pode responder a condições multimodais, incluindo áudio, nuvens de pontos 3D, vídeo e sua aritmética no espaço de incorporação, apenas com treinamento de alinhamento imagem-texto. Durante o treinamento, adotamos uma rede de ligação aprendível para alinhar o espaço de incorporação entre o LLaMA e o codificador de imagens do ImageBind. Em seguida, as características de imagem transformadas pela rede de ligação são adicionadas aos tokens de palavras de todas as camadas do LLaMA, o que injeta progressivamente instruções visuais por meio de um mecanismo de portão sem atenção e inicializado com zero. Auxiliado pela incorporação conjunta do ImageBind, o simples treinamento imagem-texto permite que nosso modelo exiba capacidades superiores de seguir instruções multimodais. Durante a inferência, as entradas multimodais são alimentadas nos codificadores correspondentes do ImageBind e processadas por um modelo de cache visual proposto para aprimoramento adicional de incorporação cruzada. O modelo de cache sem treinamento recupera de três milhões de características de imagem extraídas pelo ImageBind, o que efetivamente mitiga a discrepância de modalidade entre treinamento e inferência. Notavelmente, com nossa abordagem, o ImageBind-LLM pode responder a instruções de diversas modalidades e demonstrar qualidade significativa na geração de linguagem. O código está disponível em https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.