LongLLaVA: Ridimensionamento efficiente di LLM multi-modalità a 1000 immagini tramite architettura ibrida

Abstract

Espandere le capacità di lungo contesto dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) è cruciale per la comprensione dei video, la comprensione delle immagini ad alta risoluzione e gli agenti multimodali. Ciò implica una serie di ottimizzazioni sistematiche, tra cui l'architettura del modello, la costruzione dei dati e la strategia di addestramento, affrontando in particolare sfide come la ridotta performance con un maggior numero di immagini e i costi computazionali elevati. In questo articolo, adattiamo l'architettura del modello a un ibrido di blocchi Mamba e Transformer, affrontiamo la costruzione dei dati con dipendenze temporali e spaziali tra più immagini e adottiamo una strategia di addestramento progressiva. Il modello rilasciato LongLLaVA (Assistente Linguistico e Visivo a Lungo Contesto) è il primo MLLM ibrido, che ha ottenuto un miglior equilibrio tra efficienza ed efficacia. LongLLaVA non solo raggiunge risultati competitivi su vari benchmark, ma mantiene anche un alto throughput e un basso consumo di memoria. In particolare, è in grado di elaborare quasi un migliaio di immagini su una singola GPU A100 80GB, mostrando promettenti prospettive di applicazione per una vasta gamma di compiti.

English

Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and multi-modal agents. This involves a series of systematic optimizations, including model architecture, data construction and training strategy, particularly addressing challenges such as degraded performance with more images and high computational costs. In this paper, we adapt the model architecture to a hybrid of Mamba and Transformer blocks, approach data construction with both temporal and spatial dependencies among multiple images and employ a progressive training strategy. The released model LongLLaVA~(Long-Context Large Language and Vision Assistant) is the first hybrid MLLM, which achieved a better balance between efficiency and effectiveness. LongLLaVA not only achieves competitive results across various benchmarks, but also maintains high throughput and low memory consumption. Especially, it could process nearly a thousand images on a single A100 80GB GPU, showing promising application prospects for a wide range of tasks.

LongLLaVA: Ridimensionamento efficiente di LLM multi-modalità a 1000 immagini tramite architettura ibrida

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Abstract

Support