LongLLaVA : Mise à l'échelle efficace des LLM multi-modaux à 1000 images via une architecture hybride
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Auteurs: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Résumé
Étendre les capacités de long-contexte des Modèles de Langage Multimodaux à Grande Échelle (MLLM) est crucial pour la compréhension vidéo, la compréhension d'images haute résolution et les agents multimodaux. Cela implique une série d'optimisations systématiques, incluant l'architecture du modèle, la construction des données et la stratégie d'entraînement, en abordant notamment des défis tels que la dégradation des performances avec un plus grand nombre d'images et des coûts computationnels élevés. Dans cet article, nous adaptons l'architecture du modèle à un hybride de blocs Mamba et Transformeur, abordons la construction des données avec des dépendances temporelles et spatiales parmi plusieurs images, et utilisons une stratégie d'entraînement progressive. Le modèle publié, LongLLaVA (Long-Context Large Language and Vision Assistant), est le premier MLLM hybride, qui a atteint un meilleur équilibre entre efficacité et efficacité. LongLLaVA obtient non seulement des résultats compétitifs sur divers benchmarks, mais maintient également un débit élevé et une faible consommation de mémoire. En particulier, il peut traiter près d'un millier d'images sur un seul GPU A100 80 Go, montrant des perspectives d'application prometteuses pour une large gamme de tâches.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.Summary
AI-Generated Summary