EVLM: Un Modelo Eficiente de Visión-Lenguaje para la Comprensión Visual
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Autores: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Resumen
En el campo de los modelos de lenguaje multimodales, la mayoría de los métodos se basan en una arquitectura similar a LLaVA. Estos modelos utilizan una característica ViT de una sola capa como una señal visual, alimentándola directamente en los modelos de lenguaje junto con tokens de texto. Sin embargo, al tratar con secuencias largas de señales visuales o entradas como videos, el mecanismo de autoatención de los modelos de lenguaje puede llevar a una sobrecarga computacional significativa. Además, el uso de características ViT de una sola capa hace que sea desafiante para los grandes modelos de lenguaje percibir completamente las señales visuales. Este documento propone un modelo de lenguaje multimodal eficiente para minimizar los costos computacionales al tiempo que permite que el modelo perciba las señales visuales de la manera más completa posible. Nuestro método incluye principalmente: (1) emplear atención cruzada para la interacción imagen-texto similar a Flamingo. (2) utilizar características jerárquicas de ViT. (3) introducir el mecanismo de Mezcla de Expertos (MoE) para mejorar la efectividad del modelo. Nuestro modelo logra puntuaciones competitivas en bancos de pruebas multimodales públicos y se desempeña bien en tareas como la descripción de imágenes y la descripción de videos.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.Summary
AI-Generated Summary