Awaker2.5-VL: Устойчивое масштабирование MLLM с параметро-эффективным смесью экспертов.
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
November 16, 2024
Авторы: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI
Аннотация
Поскольку исследование мультимодальных больших языковых моделей (MLLM) становится популярным, развивающейся модели MLLM обычно требуется обрабатывать одновременно различные текстовые и визуальные задачи (например, VQA, Detection, OCR и ChartQA) для прикладных задач в реальном мире. Однако из-за значительных различий в представлении и распределении данных из различных задач простое смешивание данных всех задач приводит к известной проблеме "конфликта многозадачности", что приводит к снижению производительности по различным задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру Mixture of Experts (MoE), подходящую для MLLM, которая обладает многозадачными возможностями благодаря нескольким разреженно активированным экспертам. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкого ранга адаптации (LoRA). Обширные эксперименты на нескольких последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и вес модели опубликованы на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular,
an advancing MLLM model is typically required to handle various textual and
visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for
real-world applications. However, due to the significant differences in
representation and distribution among data from various tasks, simply mixing
data of all tasks together leads to the well-known``multi-task conflict" issue,
resulting in performance degradation across various tasks. To address this
issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture
suitable for MLLM, which acquires the multi-task capabilities through multiple
sparsely activated experts. To speed up the training and inference of
Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation
(LoRA) structure. Extensive experiments on multiple latest benchmarks
demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are
released in our Project Page: https://github.com/MetabrainAGI/Awaker.Summary
AI-Generated Summary