EVLM: Um Modelo Eficiente de Visão e Linguagem para Compreensão Visual
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Autores: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Resumo
No campo dos modelos de linguagem multimodais, a maioria dos métodos é construída com uma arquitetura semelhante à LLaVA. Esses modelos utilizam um recurso ViT de camada única como um estímulo visual, alimentando-o diretamente nos modelos de linguagem juntamente com tokens textuais. No entanto, ao lidar com sequências longas de sinais visuais ou entradas como vídeos, o mecanismo de autoatenção dos modelos de linguagem pode resultar em sobrecarga computacional significativa. Além disso, o uso de recursos ViT de camada única torna desafiador para grandes modelos de linguagem perceberem completamente os sinais visuais. Este artigo propõe um modelo de linguagem multimodal eficiente para minimizar os custos computacionais, permitindo que o modelo perceba os sinais visuais da forma mais abrangente possível. Nosso método inclui principalmente: (1) a utilização de atenção cruzada para interação imagem-texto semelhante ao Flamingo. (2) utilizar recursos ViT hierárquicos. (3) introduzir o mecanismo de Mistura de Especialistas (MoE) para aprimorar a eficácia do modelo. Nosso modelo alcança pontuações competitivas em benchmarks públicos multimodais e tem bom desempenho em tarefas como descrição de imagens e descrição de vídeos.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.