ImageBind-LLM: Multimodale Instruktionsfeinabstimmung
ImageBind-LLM: Multi-modality Instruction Tuning
September 7, 2023
Autoren: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI
Zusammenfassung
Wir präsentieren ImageBind-LLM, eine Multi-Modalitäts-Instruktionsfeinabstimmungsmethode für große Sprachmodelle (LLMs) mittels ImageBind. Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Sprach- und Bild-Instruktionsfeinabstimmung, während unser ImageBind-LLM auf Multi-Modalitätsbedingungen reagieren kann, einschließlich Audio, 3D-Punktwolken, Video und deren Einbettungsraum-Arithmetik, allein durch Bild-Text-Ausrichtungstraining. Während des Trainings verwenden wir ein lernfähiges Bindungsnetzwerk, um den Einbettungsraum zwischen LLaMA und dem Bildencoder von ImageBind auszurichten. Anschließend werden die durch das Bindungsnetzwerk transformierten Bildmerkmale zu den Wort-Tokens aller Schichten in LLaMA hinzugefügt, wodurch visuelle Instruktionen schrittweise über einen aufmerksamkeitsfreien und null-initialisierten Gating-Mechanismus injiziert werden. Unterstützt durch die gemeinsame Einbettung von ImageBind, ermöglicht das einfache Bild-Text-Training unserem Modell, überlegene Multi-Modalitäts-Instruktionsbefolgungskapazitäten zu zeigen. Während der Inferenz werden die Multi-Modalitäts-Eingaben in die entsprechenden ImageBind-Encoder eingespeist und von einem vorgeschlagenen visuellen Cache-Modell zur weiteren cross-modalen Einbettungsverbesserung verarbeitet. Das trainingsfreie Cache-Modell ruft aus drei Millionen von ImageBind extrahierten Bildmerkmalen ab, was die Diskrepanz zwischen Trainings- und Inferenzmodalität effektiv mildert. Bemerkenswerterweise kann ImageBind-LLM mit unserem Ansatz auf Instruktionen verschiedener Modalitäten reagieren und eine signifikante Sprachgenerationsqualität demonstrieren. Der Code ist unter https://github.com/OpenGVLab/LLaMA-Adapter veröffentlicht.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.