EVLM: Een Efficiënt Visueel-Taalmodel voor Visueel Begrip
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Auteurs: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Samenvatting
Op het gebied van multimodale taalmodellen zijn de meeste methoden gebaseerd op een architectuur die vergelijkbaar is met LLaVA. Deze modellen gebruiken een enkellaagse ViT-feature als visuele prompt, die direct wordt ingevoerd in de taalmodellen naast tekstuele tokens. Wanneer echter lange sequenties van visuele signalen of invoer zoals video's worden verwerkt, kan het self-attention-mechanisme van taalmodellen leiden tot aanzienlijke rekenkosten. Bovendien maakt het gebruik van enkellaagse ViT-features het voor grote taalmodellen moeilijk om visuele signalen volledig waar te nemen. Dit artikel stelt een efficiënt multimodaal taalmodel voor om de rekenkosten te minimaliseren en tegelijkertijd het model in staat te stellen visuele signalen zo uitgebreid mogelijk waar te nemen. Onze methode omvat voornamelijk: (1) het gebruik van cross-attention voor beeld-tekst-interactie, vergelijkbaar met Flamingo. (2) het benutten van hiërarchische ViT-features. (3) de introductie van het Mixture of Experts (MoE)-mechanisme om de effectiviteit van het model te vergroten. Ons model behaalt competitieve scores op openbare multimodale benchmarks en presteert goed in taken zoals beeldbeschrijving en videobeschrijving.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.