ChatPaper.aiChatPaper

Awaker2.5-VL: Escalando de forma estável MLLMs com uma Mixture of Experts eficiente em parâmetros

Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

November 16, 2024
Autores: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI

Resumo

À medida que a pesquisa sobre Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se torna popular, um modelo MLLM avançado é tipicamente necessário para lidar simultaneamente com várias tarefas textuais e visuais (por exemplo, VQA, Detecção, OCR e ChartQA) para aplicações do mundo real. No entanto, devido às diferenças significativas na representação e distribuição dos dados provenientes de diversas tarefas, simplesmente misturar os dados de todas as tarefas resulta no conhecido problema de "conflito de múltiplas tarefas", resultando em degradação de desempenho em várias tarefas. Para lidar com esse problema, propomos o Awaker2.5-VL, uma arquitetura Mixture of Experts (MoE) adequada para MLLM, que adquire as capacidades multi-tarefa por meio de múltiplos especialistas ativados de forma esparsa. Para acelerar o treinamento e inferência do Awaker2.5-VL, cada especialista em nosso modelo é projetado como uma estrutura de adaptação de baixa classificação (LoRA). Experimentos extensivos em diversos benchmarks recentes demonstram a eficácia do Awaker2.5-VL. O código e os pesos do modelo estão disponíveis em nossa Página do Projeto: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular, an advancing MLLM model is typically required to handle various textual and visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for real-world applications. However, due to the significant differences in representation and distribution among data from various tasks, simply mixing data of all tasks together leads to the well-known``multi-task conflict" issue, resulting in performance degradation across various tasks. To address this issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture suitable for MLLM, which acquires the multi-task capabilities through multiple sparsely activated experts. To speed up the training and inference of Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation (LoRA) structure. Extensive experiments on multiple latest benchmarks demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are released in our Project Page: https://github.com/MetabrainAGI/Awaker.
PDF102November 19, 2024