ChatPaper.aiChatPaper

ImageBind-LLM: Мультимодальная настройка с использованием инструкций

ImageBind-LLM: Multi-modality Instruction Tuning

September 7, 2023
Авторы: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
cs.AI

Аннотация

Мы представляем ImageBind-LLM, метод настройки инструкций для больших языковых моделей (LLM) с использованием мультимодальности через ImageBind. Существующие работы в основном сосредоточены на настройке инструкций для текста и изображений, в отличие от которых наш ImageBind-LLM способен реагировать на мультимодальные условия, включая аудио, 3D-точечные облака, видео и их арифметику в пространстве вложений, благодаря обучению только на выравнивании изображений и текста. В процессе обучения мы используем обучаемую связующую сеть для согласования пространства вложений между LLaMA и кодировщиком изображений ImageBind. Затем преобразованные связующей сетью признаки изображений добавляются к токенам слов на всех слоях LLaMA, что постепенно внедряет визуальные инструкции через механизм ворот без внимания и с нулевой инициализацией. Благодаря совместному вложению ImageBind, простое обучение на изображениях и тексте позволяет нашей модели демонстрировать превосходные способности следовать мультимодальным инструкциям. На этапе вывода мультимодальные входные данные подаются в соответствующие кодировщики ImageBind и обрабатываются предложенной моделью визуального кэша для дальнейшего улучшения кросс-модальных вложений. Модель кэша, не требующая обучения, извлекает данные из трех миллионов признаков изображений, извлеченных ImageBind, что эффективно снижает расхождение между модальностями обучения и вывода. Примечательно, что с нашим подходом ImageBind-LLM способен реагировать на инструкции различных модальностей и демонстрирует значительное качество генерации текста. Код доступен по адресу https://github.com/OpenGVLab/LLaMA-Adapter.
English
We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
PDF175December 15, 2024