EVLM : Un modèle vision-langage efficace pour la compréhension visuelle
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Auteurs: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Résumé
Dans le domaine des modèles de langage multi-modaux, la majorité des méthodes reposent sur une architecture similaire à LLaVA. Ces modèles utilisent une caractéristique ViT monocouche comme prompt visuel, l'intégrant directement dans les modèles de langage aux côtés des tokens textuels. Cependant, lorsqu'il s'agit de traiter des séquences longues de signaux visuels ou d'entrées telles que des vidéos, le mécanisme d'auto-attention des modèles de langage peut entraîner une surcharge computationnelle importante. De plus, l'utilisation de caractéristiques ViT monocouche rend difficile pour les grands modèles de langage la perception complète des signaux visuels. Cet article propose un modèle de langage multi-modal efficace pour minimiser les coûts computationnels tout en permettant au modèle de percevoir les signaux visuels de manière aussi exhaustive que possible. Notre méthode inclut principalement : (1) l'utilisation d'une attention croisée pour l'interaction image-texte, similaire à Flamingo. (2) l'exploitation de caractéristiques ViT hiérarchiques. (3) l'introduction du mécanisme de Mixture of Experts (MoE) pour améliorer l'efficacité du modèle. Notre modèle obtient des scores compétitifs sur les benchmarks multi-modaux publics et performe bien dans des tâches telles que la génération de légendes d'images et de vidéos.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.Summary
AI-Generated Summary