EVLM: Ein effizientes Vision-Language-Modell für visuelles Verständnis
EVLM: An Efficient Vision-Language Model for Visual Understanding
July 19, 2024
Autoren: Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang
cs.AI
Zusammenfassung
Im Bereich der multimodalen Sprachmodelle basieren die meisten Methoden auf einer Architektur, die LLaVA ähnelt. Diese Modelle verwenden ein ViT-Merkmal mit einer einzigen Schicht als visuellen Hinweis und speisen es direkt in die Sprachmodelle ein, zusammen mit textuellen Tokens. Jedoch kann der Selbst-Aufmerksamkeitsmechanismus der Sprachmodelle bei der Verarbeitung langer Sequenzen von visuellen Signalen oder Eingaben wie Videos zu erheblichem Rechenaufwand führen. Darüber hinaus erschwert die Verwendung von ViT-Merkmalen mit einer einzigen Schicht großen Sprachmodellen, visuelle Signale vollständig wahrzunehmen. Dieser Artikel schlägt ein effizientes multimodales Sprachmodell vor, um die Rechenkosten zu minimieren und dem Modell zu ermöglichen, visuelle Signale so umfassend wie möglich wahrzunehmen. Unsere Methode umfasst hauptsächlich: (1) die Verwendung von Kreuz-Aufmerksamkeit zur Bild-Text-Interaktion ähnlich wie bei Flamingo. (2) die Nutzung hierarchischer ViT-Merkmale. (3) die Einführung des Mechanismus der Expertenmischung (MoE) zur Verbesserung der Modellwirksamkeit. Unser Modell erzielt wettbewerbsfähige Ergebnisse bei öffentlichen multimodalen Benchmarks und schneidet gut bei Aufgaben wie der Bildunterschrift und der Videounterschrift ab.
English
In the field of multi-modal language models, the majority of methods are
built on an architecture similar to LLaVA. These models use a single-layer ViT
feature as a visual prompt, directly feeding it into the language models
alongside textual tokens. However, when dealing with long sequences of visual
signals or inputs such as videos, the self-attention mechanism of language
models can lead to significant computational overhead. Additionally, using
single-layer ViT features makes it challenging for large language models to
perceive visual signals fully. This paper proposes an efficient multi-modal
language model to minimize computational costs while enabling the model to
perceive visual signals as comprehensively as possible. Our method primarily
includes: (1) employing cross-attention to image-text interaction similar to
Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of
Experts (MoE) mechanism to enhance model effectiveness. Our model achieves
competitive scores on public multi-modal benchmarks and performs well in tasks
such as image captioning and video captioning.Summary
AI-Generated Summary