ChatPaper.aiChatPaper

ImageBind-LLM : Réglage par instructions multi-modales

ImageBind-LLM: Multi-modality Instruction Tuning

September 7, 2023
Auteurs: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI

Résumé

Nous présentons ImageBind-LLM, une méthode de réglage par instructions multi-modales pour les grands modèles de langage (LLMs) via ImageBind. Les travaux existants se concentrent principalement sur le réglage par instructions linguistiques et visuelles, contrairement à notre approche, ImageBind-LLM, qui peut répondre à des conditions multi-modales, incluant l'audio, les nuages de points 3D, la vidéo, et leur arithmétique dans l'espace d'embedding, grâce à un entraînement basé uniquement sur l'alignement image-texte. Durant l'entraînement, nous adoptons un réseau de liaison apprenable pour aligner l'espace d'embedding entre LLaMA et l'encodeur d'images d'ImageBind. Ensuite, les caractéristiques d'images transformées par ce réseau de liaison sont ajoutées aux tokens de mots de toutes les couches de LLaMA, injectant progressivement des instructions visuelles via un mécanisme de gating sans attention et initialisé à zéro. Grâce à l'embedding conjoint d'ImageBind, le simple entraînement image-texte permet à notre modèle d'exhiber des capacités supérieures de suivi d'instructions multi-modales. Durant l'inférence, les entrées multi-modales sont introduites dans les encodeurs correspondants d'ImageBind, puis traitées par un modèle de cache visuel proposé pour une amélioration supplémentaire de l'embedding inter-modal. Ce modèle de cache, sans nécessiter d'entraînement, effectue des recherches parmi trois millions de caractéristiques d'images extraites par ImageBind, atténuant efficacement la divergence de modalité entre l'entraînement et l'inférence. Notamment, avec notre approche, ImageBind-LLM peut répondre à des instructions de diverses modalités et démontrer une qualité de génération de langage significative. Le code est disponible à l'adresse suivante : https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
PDF175December 15, 2024