LongLLaVA: Schaalvergroting van multimodale LLM's naar 1000 afbeeldingen efficiënt via hybride architectuur
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Auteurs: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Samenvatting
Het uitbreiden van de lange-contextmogelijkheden van Multi-modale Grote Taalmodellen (MLLMs) is cruciaal voor videobegrip, begrip van hoge-resolutiebeelden en multi-modale agents. Dit omvat een reeks systematische optimalisaties, waaronder modelarchitectuur, dataconstructie en trainingsstrategie, met name het aanpakken van uitdagingen zoals verminderde prestaties bij meer afbeeldingen en hoge rekenkosten. In dit artikel passen we de modelarchitectuur aan naar een hybride van Mamba- en Transformer-blokken, benaderen we dataconstructie met zowel temporele als ruimtelijke afhankelijkheden tussen meerdere afbeeldingen en gebruiken we een progressieve trainingsstrategie. Het vrijgegeven model LongLLaVA (Long-Context Large Language and Vision Assistant) is het eerste hybride MLLM, dat een betere balans bereikt tussen efficiëntie en effectiviteit. LongLLaVA behaalt niet alleen competitieve resultaten op verschillende benchmarks, maar behoudt ook een hoge doorvoersnelheid en een laag geheugengebruik. Met name kan het bijna duizend afbeeldingen verwerken op een enkele A100 80GB GPU, wat veelbelovende toepassingsmogelijkheden laat zien voor een breed scala aan taken.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.Summary
AI-Generated Summary