LongLLaVA: Dimensionando LLMs Multimodais para 1000 Imagens de Forma Eficiente por Meio de uma Arquitetura Híbrida
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Autores: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Resumo
Expandir as capacidades de longo contexto dos Modelos de Linguagem Multimodal Grande~(MLLMs) é crucial para a compreensão de vídeo, compreensão de imagens de alta resolução e agentes multimodais. Isso envolve uma série de otimizações sistemáticas, incluindo arquitetura do modelo, construção de dados e estratégia de treinamento, abordando especialmente desafios como desempenho degradado com mais imagens e altos custos computacionais. Neste artigo, adaptamos a arquitetura do modelo para um híbrido de blocos Mamba e Transformer, abordamos a construção de dados com dependências temporais e espaciais entre múltiplas imagens e empregamos uma estratégia de treinamento progressiva. O modelo liberado LongLLaVA~(Assistente de Linguagem e Visão de Longo Contexto) é o primeiro MLLM híbrido, que alcançou um melhor equilíbrio entre eficiência e eficácia. LongLLaVA não apenas alcança resultados competitivos em vários benchmarks, mas também mantém alta taxa de processamento e baixo consumo de memória. Especialmente, ele pode processar quase mil imagens em uma única GPU A100 de 80GB, mostrando perspectivas promissoras de aplicação para uma ampla gama de tarefas.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.Summary
AI-Generated Summary