ImageBind-LLM: Multi-modale Instructieafstemming
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
Auteurs: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
Samenvatting
We presenteren ImageBind-LLM, een multi-modaliteit instructie-afstemmingsmethode voor grote taalmodellen (LLMs) via ImageBind. Bestaande werken richten zich voornamelijk op taal- en beeldinstructie-afstemming, terwijl ons ImageBind-LLM kan reageren op multi-modaliteit condities, waaronder audio, 3D-puntenwolken, video en hun embedding-ruimte rekenkunde, door alleen beeld-tekst-uitlijningstraining. Tijdens de training gebruiken we een leerbaar bindingsnetwerk om de embedding-ruimte tussen LLaMA en ImageBind's beeldencoder uit te lijnen. Vervolgens worden de beeldkenmerken die door het bindingsnetwerk zijn getransformeerd, toegevoegd aan woordtokens van alle lagen in LLaMA, waardoor visuele instructies progressief worden geïnjecteerd via een aandacht-vrij en nul-geïnitialiseerd gatingmechanisme. Geholpen door de gezamenlijke embedding van ImageBind, stelt de eenvoudige beeld-teksttraining ons model in staat superieure multi-modaliteit instructie-volgcapaciteiten te vertonen. Tijdens de inferentie worden de multi-modaliteit invoeren gevoed in de corresponderende ImageBind-encoders en verwerkt door een voorgesteld visueel cache-model voor verdere cross-modale embedding-verbetering. Het trainingsvrije cache-model haalt op uit drie miljoen beeldkenmerken die door ImageBind zijn geëxtraheerd, wat effectief de trainings-inferentie modaliteitsdiscrepantie vermindert. Opmerkelijk is dat met onze aanpak ImageBind-LLM kan reageren op instructies van diverse modaliteiten en aanzienlijke taalgeneratiekwaliteit demonstreert. Code is vrijgegeven op https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.