EVLM: Un Modello Visione-Linguaggio Efficiente per la Comprensione Visiva

Abstract

Nel campo dei modelli linguistici multimodali, la maggior parte dei metodi si basa su un'architettura simile a LLaVA. Questi modelli utilizzano una feature ViT a singolo strato come prompt visivo, alimentandola direttamente nei modelli linguistici insieme ai token testuali. Tuttavia, quando si tratta di sequenze lunghe di segnali visivi o input come i video, il meccanismo di self-attention dei modelli linguistici può portare a un significativo sovraccarico computazionale. Inoltre, l'uso di feature ViT a singolo strato rende difficile per i grandi modelli linguistici percepire pienamente i segnali visivi. Questo articolo propone un modello linguistico multimodale efficiente per minimizzare i costi computazionali consentendo al modello di percepire i segnali visivi nel modo più completo possibile. Il nostro metodo include principalmente: (1) l'impiego di cross-attention per l'interazione immagine-testo simile a Flamingo. (2) l'utilizzo di feature ViT gerarchiche. (3) l'introduzione del meccanismo Mixture of Experts (MoE) per migliorare l'efficacia del modello. Il nostro modello ottiene punteggi competitivi su benchmark multimodali pubblici e si comporta bene in compiti come la descrizione di immagini e la descrizione di video.

English

In the field of multi-modal language models, the majority of methods are built on an architecture similar to LLaVA. These models use a single-layer ViT feature as a visual prompt, directly feeding it into the language models alongside textual tokens. However, when dealing with long sequences of visual signals or inputs such as videos, the self-attention mechanism of language models can lead to significant computational overhead. Additionally, using single-layer ViT features makes it challenging for large language models to perceive visual signals fully. This paper proposes an efficient multi-modal language model to minimize computational costs while enabling the model to perceive visual signals as comprehensively as possible. Our method primarily includes: (1) employing cross-attention to image-text interaction similar to Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of Experts (MoE) mechanism to enhance model effectiveness. Our model achieves competitive scores on public multi-modal benchmarks and performs well in tasks such as image captioning and video captioning.

EVLM: Un Modello Visione-Linguaggio Efficiente per la Comprensione Visiva

EVLM: An Efficient Vision-Language Model for Visual Understanding

Abstract

Support