ImageBind-LLM: Ajuste de Instrucción Multimodal
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
Autores: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
Resumen
Presentamos ImageBind-LLM, un método de ajuste por instrucciones multimodales para modelos de lenguaje grande (LLMs) mediante ImageBind. Los trabajos existentes se centran principalmente en el ajuste por instrucciones de lenguaje e imágenes, a diferencia de los cuales, nuestro ImageBind-LLM puede responder a condiciones multimodales, incluyendo audio, nubes de puntos 3D, video y su aritmética en el espacio de incrustaciones, solo con entrenamiento de alineación imagen-texto. Durante el entrenamiento, adoptamos una red de enlace aprendible para alinear el espacio de incrustaciones entre LLaMA y el codificador de imágenes de ImageBind. Luego, las características de imagen transformadas por la red de enlace se añaden a los tokens de palabras de todas las capas en LLaMA, lo que inyecta progresivamente instrucciones visuales mediante un mecanismo de compuerta sin atención e inicializado en cero. Ayudado por la incrustación conjunta de ImageBind, el simple entrenamiento imagen-texto permite que nuestro modelo exhiba capacidades superiores de seguimiento de instrucciones multimodales. Durante la inferencia, las entradas multimodales se introducen en los codificadores correspondientes de ImageBind y se procesan mediante un modelo de caché visual propuesto para una mayor mejora de la incrustación cruzada de modalidades. El modelo de caché, que no requiere entrenamiento, recupera de tres millones de características de imagen extraídas por ImageBind, lo que mitiga eficazmente la discrepancia de modalidades entre entrenamiento e inferencia. Notablemente, con nuestro enfoque, ImageBind-LLM puede responder a instrucciones de diversas modalidades y demostrar una calidad significativa en la generación de lenguaje. El código se ha publicado en https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.