EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания

Аннотация

В области многомодальных языковых моделей большинство методов основаны на архитектуре, аналогичной LLaVA. Эти модели используют однослойную функцию ViT в качестве визуального стимула, подают ее непосредственно в языковые модели наряду с текстовыми токенами. Однако при работе с длинными последовательностями визуальных сигналов или входных данных, таких как видео, механизм самовнимания языковых моделей может привести к значительным вычислительным издержкам. Кроме того, использование однослойных функций ViT затрудняет полное восприятие визуальных сигналов большими языковыми моделями. В данной статье предлагается эффективная многомодальная языковая модель для минимизации вычислительных затрат, позволяющая модели воспринимать визуальные сигналы максимально полно. Наш метод включает в себя: (1) использование кросс-внимания для взаимодействия изображения-текст, аналогичного Flamingo. (2) использование иерархических функций ViT. (3) внедрение механизма Mixture of Experts (MoE) для улучшения эффективности модели. Наша модель достигает конкурентоспособных результатов на общедоступных многомодальных бенчмарках и успешно справляется с задачами, такими как описание изображений и описание видео.

English

In the field of multi-modal language models, the majority of methods are built on an architecture similar to LLaVA. These models use a single-layer ViT feature as a visual prompt, directly feeding it into the language models alongside textual tokens. However, when dealing with long sequences of visual signals or inputs such as videos, the self-attention mechanism of language models can lead to significant computational overhead. Additionally, using single-layer ViT features makes it challenging for large language models to perceive visual signals fully. This paper proposes an efficient multi-modal language model to minimize computational costs while enabling the model to perceive visual signals as comprehensively as possible. Our method primarily includes: (1) employing cross-attention to image-text interaction similar to Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of Experts (MoE) mechanism to enhance model effectiveness. Our model achieves competitive scores on public multi-modal benchmarks and performs well in tasks such as image captioning and video captioning.

EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания

EVLM: An Efficient Vision-Language Model for Visual Understanding

Аннотация

Support