ChatPaper.aiChatPaper

EVLM : Un modèle vision-langage efficace pour la compréhension visuelle

EVLM: An Efficient Vision-Language Model for Visual Understanding

July 19, 2024
Auteurs: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI

Résumé

Dans le domaine des modèles de langage multi-modaux, la majorité des méthodes reposent sur une architecture similaire à LLaVA. Ces modèles utilisent une caractéristique ViT monocouche comme prompt visuel, l'intégrant directement dans les modèles de langage aux côtés des tokens textuels. Cependant, lorsqu'il s'agit de traiter des séquences longues de signaux visuels ou d'entrées telles que des vidéos, le mécanisme d'auto-attention des modèles de langage peut entraîner une surcharge computationnelle importante. De plus, l'utilisation de caractéristiques ViT monocouche rend difficile pour les grands modèles de langage la perception complète des signaux visuels. Cet article propose un modèle de langage multi-modal efficace pour minimiser les coûts computationnels tout en permettant au modèle de percevoir les signaux visuels de manière aussi exhaustive que possible. Notre méthode inclut principalement : (1) l'utilisation d'une attention croisée pour l'interaction image-texte, similaire à Flamingo. (2) l'exploitation de caractéristiques ViT hiérarchiques. (3) l'introduction du mécanisme de Mixture of Experts (MoE) pour améliorer l'efficacité du modèle. Notre modèle obtient des scores compétitifs sur les benchmarks multi-modaux publics et performe bien dans des tâches telles que la génération de légendes d'images et de vidéos.
English
In the field of multi-modal language models, the majority of methods are built on an architecture similar to LLaVA. These models use a single-layer ViT feature as a visual prompt, directly feeding it into the language models alongside textual tokens. However, when dealing with long sequences of visual signals or inputs such as videos, the self-attention mechanism of language models can lead to significant computational overhead. Additionally, using single-layer ViT features makes it challenging for large language models to perceive visual signals fully. This paper proposes an efficient multi-modal language model to minimize computational costs while enabling the model to perceive visual signals as comprehensively as possible. Our method primarily includes: (1) employing cross-attention to image-text interaction similar to Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of Experts (MoE) mechanism to enhance model effectiveness. Our model achieves competitive scores on public multi-modal benchmarks and performs well in tasks such as image captioning and video captioning.

Summary

AI-Generated Summary

PDF455November 28, 2024