LLaVA-Mini : Modèles multimodaux volumineux efficaces pour les images et les vidéos avec un jeton de vision
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
January 7, 2025
Auteurs: Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng
cs.AI
Résumé
L'avènement de modèles multimodaux en temps réel à grande échelle tels que GPT-4o a suscité un intérêt considérable pour les modèles multimodaux efficaces. Les cadres de modèles multimodaux encodent généralement les entrées visuelles en jetons de vision (représentations continues) et les intègrent avec des instructions textuelles dans le contexte de grands modèles de langage, où les paramètres à grande échelle et de nombreux jetons de contexte (principalement des jetons de vision) entraînent une charge computationnelle substantielle. Les efforts précédents en faveur de modèles multimodaux efficaces se concentrent toujours sur le remplacement de la structure de base du modèle de langage par des modèles plus petits, en négligeant la question cruciale de la quantité de jetons. Dans cet article, nous présentons LLaVA-Mini, un modèle multimodal efficace avec un nombre minimal de jetons de vision. Pour atteindre un taux de compression élevé des jetons de vision tout en préservant l'information visuelle, nous analysons d'abord comment les modèles multimodaux comprennent les jetons de vision et constatons que la plupart des jetons de vision jouent un rôle crucial dans les premières couches de la structure de base du modèle de langage, où ils fusionnent principalement l'information visuelle dans les jetons de texte. S'appuyant sur cette découverte, LLaVA-Mini introduit une pré-fusion de modalité pour fusionner l'information visuelle dans les jetons de texte à l'avance, facilitant ainsi la compression extrême des jetons de vision alimentés à la structure de base du modèle de langage en un seul jeton. LLaVA-Mini est un modèle multimodal large unifié qui peut prendre en charge la compréhension des images, des images haute résolution et des vidéos de manière efficace. Des expériences menées sur 11 benchmarks basés sur des images et 7 benchmarks basés sur des vidéos montrent que LLaVA-Mini surpasse LLaVA-v1.5 avec seulement 1 jeton de vision au lieu de 576. Les analyses d'efficacité révèlent que LLaVA-Mini peut réduire les FLOPs de 77 %, fournir des réponses à faible latence en moins de 40 millisecondes et traiter plus de 10 000 images vidéo sur le matériel GPU avec 24 Go de mémoire.
English
The advent of real-time large multimodal models (LMMs) like GPT-4o has
sparked considerable interest in efficient LMMs. LMM frameworks typically
encode visual inputs into vision tokens (continuous representations) and
integrate them and textual instructions into the context of large language
models (LLMs), where large-scale parameters and numerous context tokens
(predominantly vision tokens) result in substantial computational overhead.
Previous efforts towards efficient LMMs always focus on replacing the LLM
backbone with smaller models, while neglecting the crucial issue of token
quantity. In this paper, we introduce LLaVA-Mini, an efficient LMM with minimal
vision tokens. To achieve a high compression ratio of vision tokens while
preserving visual information, we first analyze how LMMs understand vision
tokens and find that most vision tokens only play a crucial role in the early
layers of LLM backbone, where they mainly fuse visual information into text
tokens. Building on this finding, LLaVA-Mini introduces modality pre-fusion to
fuse visual information into text tokens in advance, thereby facilitating the
extreme compression of vision tokens fed to LLM backbone into one token.
LLaVA-Mini is a unified large multimodal model that can support the
understanding of images, high-resolution images, and videos in an efficient
manner. Experiments across 11 image-based and 7 video-based benchmarks
demonstrate that LLaVA-Mini outperforms LLaVA-v1.5 with just 1 vision token
instead of 576. Efficiency analyses reveal that LLaVA-Mini can reduce FLOPs by
77%, deliver low-latency responses within 40 milliseconds, and process over
10,000 frames of video on the GPU hardware with 24GB of memory.Summary
AI-Generated Summary