EVLM: Un Modello Visione-Linguaggio Efficiente per la Comprensione Visiva
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Autori: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Abstract
Nel campo dei modelli linguistici multimodali, la maggior parte dei metodi si basa su un'architettura simile a LLaVA. Questi modelli utilizzano una feature ViT a singolo strato come prompt visivo, alimentandola direttamente nei modelli linguistici insieme ai token testuali. Tuttavia, quando si tratta di sequenze lunghe di segnali visivi o input come i video, il meccanismo di self-attention dei modelli linguistici può portare a un significativo sovraccarico computazionale. Inoltre, l'uso di feature ViT a singolo strato rende difficile per i grandi modelli linguistici percepire pienamente i segnali visivi. Questo articolo propone un modello linguistico multimodale efficiente per minimizzare i costi computazionali consentendo al modello di percepire i segnali visivi nel modo più completo possibile. Il nostro metodo include principalmente: (1) l'impiego di cross-attention per l'interazione immagine-testo simile a Flamingo. (2) l'utilizzo di feature ViT gerarchiche. (3) l'introduzione del meccanismo Mixture of Experts (MoE) per migliorare l'efficacia del modello. Il nostro modello ottiene punteggi competitivi su benchmark multimodali pubblici e si comporta bene in compiti come la descrizione di immagini e la descrizione di video.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.