LongLLaVA: Escalando LLMs multimodales a 1000 imágenes de manera eficiente a través de una arquitectura híbrida
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
September 4, 2024
Autores: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI
Resumen
Expandir las capacidades de largo contexto de los Modelos de Lenguaje Multimodal Grande (MLLMs) es crucial para la comprensión de video, la comprensión de imágenes de alta resolución y agentes multimodales. Esto implica una serie de optimizaciones sistemáticas, incluyendo la arquitectura del modelo, la construcción de datos y la estrategia de entrenamiento, abordando particularmente desafíos como el rendimiento degradado con más imágenes y altos costos computacionales. En este artículo, adaptamos la arquitectura del modelo a un híbrido de bloques Mamba y Transformador, abordamos la construcción de datos con dependencias temporales y espaciales entre múltiples imágenes y empleamos una estrategia de entrenamiento progresiva. El modelo liberado LongLLaVA (Asistente de Lenguaje y Visión de Largo Contexto) es el primer MLLM híbrido, que logró un mejor equilibrio entre eficiencia y efectividad. LongLLaVA no solo logra resultados competitivos en varios benchmarks, sino que también mantiene un alto rendimiento y un bajo consumo de memoria. Especialmente, podría procesar casi mil imágenes en una sola GPU A100 de 80GB, mostrando perspectivas de aplicación prometedoras para una amplia gama de tareas.
English
Expanding the long-context capabilities of Multi-modal Large Language
Models~(MLLMs) is crucial for video understanding, high-resolution image
understanding, and multi-modal agents. This involves a series of systematic
optimizations, including model architecture, data construction and training
strategy, particularly addressing challenges such as degraded
performance with more images and high computational costs. In this
paper, we adapt the model architecture to a hybrid of Mamba and Transformer
blocks, approach data construction with both temporal and spatial dependencies
among multiple images and employ a progressive training strategy. The released
model LongLLaVA~(Long-Context Large
Language and Vision Assistant) is the first
hybrid MLLM, which achieved a better balance between efficiency and
effectiveness. LongLLaVA not only achieves competitive results across various
benchmarks, but also maintains high throughput and low memory consumption.
Especially, it could process nearly a thousand images on a single A100 80GB
GPU, showing promising application prospects for a wide range of tasks.Summary
AI-Generated Summary