ImageBind-LLM: Sintonizzazione Multi-modale su Istruzioni
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
Autori: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
Abstract
Presentiamo ImageBind-LLM, un metodo di ottimizzazione delle istruzioni multimodale per i grandi modelli linguistici (LLM) tramite ImageBind. I lavori esistenti si concentrano principalmente sull'ottimizzazione delle istruzioni per linguaggio e immagini, mentre il nostro ImageBind-LLM è in grado di rispondere a condizioni multimodali, inclusi audio, nuvole di punti 3D, video e la loro aritmetica nello spazio di embedding, attraverso un addestramento basato solo sull'allineamento immagine-testo. Durante l'addestramento, adottiamo una rete di binding apprendibile per allineare lo spazio di embedding tra LLaMA e l'encoder di immagini di ImageBind. Successivamente, le caratteristiche delle immagini trasformate dalla rete di binding vengono aggiunte ai token di parole di tutti i livelli in LLaMA, iniettando progressivamente istruzioni visive attraverso un meccanismo di gate senza attenzione e inizializzato a zero. Grazie all'embedding congiunto di ImageBind, il semplice addestramento immagine-testo consente al nostro modello di esibire capacità superiori di seguire istruzioni multimodali. Durante l'inferenza, gli input multimodali vengono inseriti nei corrispondenti encoder di ImageBind e processati da un modello di cache visiva proposto per un ulteriore miglioramento dell'embedding cross-modale. Il modello di cache, che non richiede addestramento, recupera da tre milioni di caratteristiche di immagini estratte da ImageBind, mitigando efficacemente la discrepanza tra le modalità di addestramento e inferenza. È importante notare che, con il nostro approccio, ImageBind-LLM è in grado di rispondere a istruzioni di diverse modalità e dimostrare una qualità significativa nella generazione del linguaggio. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.