ChatPaper.aiChatPaper

ImageBind-LLM: Ajuste de Instrução Multimodal

ImageBind-LLM: Multi-modality Instruction Tuning

September 7, 2023
Autores: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI

Resumo

Apresentamos o ImageBind-LLM, um método de ajuste de instrução multimodal para grandes modelos de linguagem (LLMs) via ImageBind. Trabalhos existentes focam principalmente no ajuste de instruções de linguagem e imagem, ao contrário dos quais, nosso ImageBind-LLM pode responder a condições multimodais, incluindo áudio, nuvens de pontos 3D, vídeo e sua aritmética no espaço de incorporação, apenas com treinamento de alinhamento imagem-texto. Durante o treinamento, adotamos uma rede de ligação aprendível para alinhar o espaço de incorporação entre o LLaMA e o codificador de imagens do ImageBind. Em seguida, as características de imagem transformadas pela rede de ligação são adicionadas aos tokens de palavras de todas as camadas do LLaMA, o que injeta progressivamente instruções visuais por meio de um mecanismo de portão sem atenção e inicializado com zero. Auxiliado pela incorporação conjunta do ImageBind, o simples treinamento imagem-texto permite que nosso modelo exiba capacidades superiores de seguir instruções multimodais. Durante a inferência, as entradas multimodais são alimentadas nos codificadores correspondentes do ImageBind e processadas por um modelo de cache visual proposto para aprimoramento adicional de incorporação cruzada. O modelo de cache sem treinamento recupera de três milhões de características de imagem extraídas pelo ImageBind, o que efetivamente mitiga a discrepância de modalidade entre treinamento e inferência. Notavelmente, com nossa abordagem, o ImageBind-LLM pode responder a instruções de diversas modalidades e demonstrar qualidade significativa na geração de linguagem. O código está disponível em https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
PDF175December 15, 2024