mPLUG-Owl2: Revolucionando el Modelo de Lenguaje Multimodal a Gran Escala con Colaboración entre Modalidades
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
November 7, 2023
Autores: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes para seguir instrucciones en diversas tareas de carácter abierto. Sin embargo, los métodos anteriores se han centrado principalmente en mejorar las capacidades multimodales. En este trabajo, presentamos un modelo de lenguaje multimodal versátil, mPLUG-Owl2, que aprovecha eficazmente la colaboración entre modalidades para mejorar el rendimiento tanto en tareas de texto como multimodales. mPLUG-Owl2 utiliza un diseño de red modularizado, donde el decodificador de lenguaje actúa como una interfaz universal para gestionar las diferentes modalidades. Específicamente, mPLUG-Owl2 incorpora módulos funcionales compartidos para facilitar la colaboración entre modalidades e introduce un módulo adaptativo a la modalidad que preserva las características específicas de cada una. Experimentos exhaustivos revelan que mPLUG-Owl2 es capaz de generalizar tanto tareas de texto como multimodales, logrando un rendimiento de vanguardia con un único modelo genérico. Cabe destacar que mPLUG-Owl2 es el primer modelo MLLM que demuestra el fenómeno de colaboración entre modalidades tanto en escenarios de texto puro como multimodales, marcando un camino pionero en el desarrollo de futuros modelos fundamentales multimodales.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.