EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Авторы: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Аннотация
В области многомодальных языковых моделей большинство методов основаны на архитектуре, аналогичной LLaVA. Эти модели используют однослойную функцию ViT в качестве визуального стимула, подают ее непосредственно в языковые модели наряду с текстовыми токенами. Однако при работе с длинными последовательностями визуальных сигналов или входных данных, таких как видео, механизм самовнимания языковых моделей может привести к значительным вычислительным издержкам. Кроме того, использование однослойных функций ViT затрудняет полное восприятие визуальных сигналов большими языковыми моделями. В данной статье предлагается эффективная многомодальная языковая модель для минимизации вычислительных затрат, позволяющая модели воспринимать визуальные сигналы максимально полно. Наш метод включает в себя: (1) использование кросс-внимания для взаимодействия изображения-текст, аналогичного Flamingo. (2) использование иерархических функций ViT. (3) внедрение механизма Mixture of Experts (MoE) для улучшения эффективности модели. Наша модель достигает конкурентоспособных результатов на общедоступных многомодальных бенчмарках и успешно справляется с задачами, такими как описание изображений и описание видео.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.Summary
AI-Generated Summary