ChatPaper.aiChatPaper

EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания

EVLM: An Efficient Vision-Language Model for Visual Understanding

July 19, 2024
Авторы: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI

Аннотация

В области многомодальных языковых моделей большинство методов основаны на архитектуре, аналогичной LLaVA. Эти модели используют однослойную функцию ViT в качестве визуального стимула, подают ее непосредственно в языковые модели наряду с текстовыми токенами. Однако при работе с длинными последовательностями визуальных сигналов или входных данных, таких как видео, механизм самовнимания языковых моделей может привести к значительным вычислительным издержкам. Кроме того, использование однослойных функций ViT затрудняет полное восприятие визуальных сигналов большими языковыми моделями. В данной статье предлагается эффективная многомодальная языковая модель для минимизации вычислительных затрат, позволяющая модели воспринимать визуальные сигналы максимально полно. Наш метод включает в себя: (1) использование кросс-внимания для взаимодействия изображения-текст, аналогичного Flamingo. (2) использование иерархических функций ViT. (3) внедрение механизма Mixture of Experts (MoE) для улучшения эффективности модели. Наша модель достигает конкурентоспособных результатов на общедоступных многомодальных бенчмарках и успешно справляется с задачами, такими как описание изображений и описание видео.
English
In the field of multi-modal language models, the majority of methods are built on an architecture similar to LLaVA. These models use a single-layer ViT feature as a visual prompt, directly feeding it into the language models alongside textual tokens. However, when dealing with long sequences of visual signals or inputs such as videos, the self-attention mechanism of language models can lead to significant computational overhead. Additionally, using single-layer ViT features makes it challenging for large language models to perceive visual signals fully. This paper proposes an efficient multi-modal language model to minimize computational costs while enabling the model to perceive visual signals as comprehensively as possible. Our method primarily includes: (1) employing cross-attention to image-text interaction similar to Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of Experts (MoE) mechanism to enhance model effectiveness. Our model achieves competitive scores on public multi-modal benchmarks and performs well in tasks such as image captioning and video captioning.

Summary

AI-Generated Summary

PDF455November 28, 2024