ChatPaper.aiChatPaper

Awaker2.5-VL: Escalando de forma estable MLLMs con una mezcla eficiente de expertos con parámetros.

Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

November 16, 2024
Autores: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI

Resumen

A medida que la investigación de Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) se vuelve popular, típicamente se requiere que un modelo MLLM avanzado maneje diversas tareas textuales y visuales (por ejemplo, VQA, Detección, OCR y ChartQA) simultáneamente para aplicaciones del mundo real. Sin embargo, debido a las significativas diferencias en la representación y distribución entre los datos de diversas tareas, simplemente mezclar los datos de todas las tareas conduce al conocido problema de "conflicto multi-tarea", lo que resulta en una degradación del rendimiento en diversas tareas. Para abordar este problema, proponemos Awaker2.5-VL, una arquitectura de Mezcla de Expertos (MoE) adecuada para MLLM, que adquiere capacidades multi-tarea a través de múltiples expertos activados de forma dispersa. Para acelerar el entrenamiento y la inferencia de Awaker2.5-VL, cada experto en nuestro modelo está diseñado como una estructura de adaptación de rango bajo (LoRA). Experimentos extensos en múltiples benchmarks recientes demuestran la efectividad de Awaker2.5-VL. El código y los pesos del modelo se han publicado en nuestra Página del Proyecto: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular, an advancing MLLM model is typically required to handle various textual and visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for real-world applications. However, due to the significant differences in representation and distribution among data from various tasks, simply mixing data of all tasks together leads to the well-known``multi-task conflict" issue, resulting in performance degradation across various tasks. To address this issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture suitable for MLLM, which acquires the multi-task capabilities through multiple sparsely activated experts. To speed up the training and inference of Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation (LoRA) structure. Extensive experiments on multiple latest benchmarks demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are released in our Project Page: https://github.com/MetabrainAGI/Awaker.

Summary

AI-Generated Summary

PDF102November 19, 2024