LongLLaVA: Skalierung von Multi-modalen LLMs auf 1000 Bilder effizient durch Hybridarchitektur
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Autoren: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Zusammenfassung
Die Erweiterung der Fähigkeiten von Multi-modalen Large Language Models (MLLMs) im Bereich des Langzeitkontexts ist entscheidend für das Verständnis von Videos, hochauflösenden Bildern und Multi-Modalen Agenten. Dies erfordert eine Reihe systematischer Optimierungen, einschließlich der Modellarchitektur, der Datenerstellung und Trainingsstrategie, insbesondere zur Bewältigung von Herausforderungen wie der verschlechterten Leistung mit mehr Bildern und hohen Rechenkosten. In diesem Paper passen wir die Modellarchitektur an eine Hybrid aus Mamba- und Transformer-Blöcken an, gehen bei der Datenerstellung auf sowohl zeitliche als auch räumliche Abhängigkeiten zwischen mehreren Bildern ein und verwenden eine progressive Trainingsstrategie. Das veröffentlichte Modell LongLLaVA (Long-Context Large Language and Vision Assistant) ist das erste Hybrid MLLM, das ein besseres Gleichgewicht zwischen Effizienz und Effektivität erreicht hat. LongLLaVA erzielt nicht nur wettbewerbsfähige Ergebnisse in verschiedenen Benchmarks, sondern behält auch eine hohe Durchsatzrate und einen geringen Speicherverbrauch bei. Insbesondere kann es fast tausend Bilder auf einer einzelnen A100 80GB GPU verarbeiten und zeigt vielversprechende Anwendungsaussichten für eine Vielzahl von Aufgaben.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.Summary
AI-Generated Summary