ImageBind-LLM: Sintonizzazione Multi-modale su Istruzioni

Abstract

Presentiamo ImageBind-LLM, un metodo di ottimizzazione delle istruzioni multimodale per i grandi modelli linguistici (LLM) tramite ImageBind. I lavori esistenti si concentrano principalmente sull'ottimizzazione delle istruzioni per linguaggio e immagini, mentre il nostro ImageBind-LLM è in grado di rispondere a condizioni multimodali, inclusi audio, nuvole di punti 3D, video e la loro aritmetica nello spazio di embedding, attraverso un addestramento basato solo sull'allineamento immagine-testo. Durante l'addestramento, adottiamo una rete di binding apprendibile per allineare lo spazio di embedding tra LLaMA e l'encoder di immagini di ImageBind. Successivamente, le caratteristiche delle immagini trasformate dalla rete di binding vengono aggiunte ai token di parole di tutti i livelli in LLaMA, iniettando progressivamente istruzioni visive attraverso un meccanismo di gate senza attenzione e inizializzato a zero. Grazie all'embedding congiunto di ImageBind, il semplice addestramento immagine-testo consente al nostro modello di esibire capacità superiori di seguire istruzioni multimodali. Durante l'inferenza, gli input multimodali vengono inseriti nei corrispondenti encoder di ImageBind e processati da un modello di cache visiva proposto per un ulteriore miglioramento dell'embedding cross-modale. Il modello di cache, che non richiede addestramento, recupera da tre milioni di caratteristiche di immagini estratte da ImageBind, mitigando efficacemente la discrepanza tra le modalità di addestramento e inferenza. È importante notare che, con il nostro approccio, ImageBind-LLM è in grado di rispondere a istruzioni di diverse modalità e dimostrare una qualità significativa nella generazione del linguaggio. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/LLaMA-Adapter.

English

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.

ImageBind-LLM: Sintonizzazione Multi-modale su Istruzioni

ImageBind-LLM: Multi-modality Instruction Tuning

Abstract

Support