ChatPaper.aiChatPaper

LongLLaVA: Масштабирование мультимодальных LLM до 1000 изображений эффективно с помощью гибридной архитектуры

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

September 4, 2024
Авторы: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
cs.AI

Аннотация

Расширение возможностей долгосрочного контекста много-модальных крупных языковых моделей (MLLM) критично для понимания видео, понимания изображений высокого разрешения и много-модальных агентов. Это включает в себя ряд систематических оптимизаций, включая архитектуру модели, конструирование данных и стратегию обучения, особенно решая проблемы, такие как ухудшение производительности с увеличением числа изображений и высокие вычислительные затраты. В данной статье мы адаптируем архитектуру модели к гибриду блоков Mamba и Трансформера, подходим к конструированию данных с учетом как временных, так и пространственных зависимостей между несколькими изображениями и используем прогрессивную стратегию обучения. Выпущенная модель LongLLaVA (Долгосрочный Контекст Большой Языковой и Визуальной Помощницы) является первым гибридным MLLM, который достиг лучшего баланса между эффективностью и эффективностью. LongLLaVA не только достигает конкурентоспособных результатов на различных показателях, но также сохраняет высокую производительность и низкое потребление памяти. Особенно важно, что она может обрабатывать почти тысячу изображений на одном графическом процессоре A100 80 ГБ, что показывает многообещающие перспективы применения для широкого спектра задач.
English
Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and multi-modal agents. This involves a series of systematic optimizations, including model architecture, data construction and training strategy, particularly addressing challenges such as degraded performance with more images and high computational costs. In this paper, we adapt the model architecture to a hybrid of Mamba and Transformer blocks, approach data construction with both temporal and spatial dependencies among multiple images and employ a progressive training strategy. The released model LongLLaVA~(Long-Context Large Language and Vision Assistant) is the first hybrid MLLM, which achieved a better balance between efficiency and effectiveness. LongLLaVA not only achieves competitive results across various benchmarks, but also maintains high throughput and low memory consumption. Especially, it could process nearly a thousand images on a single A100 80GB GPU, showing promising application prospects for a wide range of tasks.

Summary

AI-Generated Summary

PDF552November 16, 2024