LongLLaVA: Ridimensionamento efficiente di LLM multi-modalità a 1000 immagini tramite architettura ibrida
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Autori: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Abstract
Espandere le capacità di lungo contesto dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) è cruciale per la comprensione dei video, la comprensione delle immagini ad alta risoluzione e gli agenti multimodali. Ciò implica una serie di ottimizzazioni sistematiche, tra cui l'architettura del modello, la costruzione dei dati e la strategia di addestramento, affrontando in particolare sfide come la ridotta performance con un maggior numero di immagini e i costi computazionali elevati. In questo articolo, adattiamo l'architettura del modello a un ibrido di blocchi Mamba e Transformer, affrontiamo la costruzione dei dati con dipendenze temporali e spaziali tra più immagini e adottiamo una strategia di addestramento progressiva. Il modello rilasciato LongLLaVA (Assistente Linguistico e Visivo a Lungo Contesto) è il primo MLLM ibrido, che ha ottenuto un miglior equilibrio tra efficienza ed efficacia. LongLLaVA non solo raggiunge risultati competitivi su vari benchmark, ma mantiene anche un alto throughput e un basso consumo di memoria. In particolare, è in grado di elaborare quasi un migliaio di immagini su una singola GPU A100 80GB, mostrando promettenti prospettive di applicazione per una vasta gamma di compiti.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.