mPLUG-Owl2: Revolucionando o Modelo de Linguagem Multimodal de Grande Escala com Colaboração de Modalidades
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
November 7, 2023
Autores: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI
Resumo
Modelos de Linguagem de Grande Escala Multimodal (MLLMs) têm demonstrado habilidades impressionantes de instrução em diversas tarefas de natureza aberta. No entanto, métodos anteriores concentram-se principalmente em aprimorar capacidades multimodais. Neste trabalho, introduzimos um modelo de linguagem de grande escala multimodal versátil, o mPLUG-Owl2, que efetivamente aproveita a colaboração entre modalidades para melhorar o desempenho tanto em tarefas de texto quanto em tarefas multimodais. O mPLUG-Owl2 utiliza um design de rede modularizado, com o decodificador de linguagem atuando como uma interface universal para gerenciar diferentes modalidades. Especificamente, o mPLUG-Owl2 incorpora módulos funcionais compartilhados para facilitar a colaboração entre modalidades e introduz um módulo adaptativo de modalidade que preserva características específicas de cada modalidade. Experimentos extensivos revelam que o mPLUG-Owl2 é capaz de generalizar tanto tarefas de texto quanto tarefas multimodais, alcançando desempenhos de ponta com um único modelo genérico. Notavelmente, o mPLUG-Owl2 é o primeiro modelo MLLM que demonstra o fenômeno de colaboração entre modalidades tanto em cenários de texto puro quanto em cenários multimodais, estabelecendo um caminho pioneiro no desenvolvimento de futuros modelos fundamentais multimodais.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.