mPLUG-Owl2 : Révolutionner les modèles de langage multi-modaux de grande envergure grâce à la collaboration entre modalités
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
November 7, 2023
Auteurs: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI
Résumé
Les modèles de langage multi-modaux de grande taille (MLLMs) ont démontré des capacités impressionnantes à suivre des instructions dans diverses tâches ouvertes. Cependant, les méthodes précédentes se concentrent principalement sur l'amélioration des capacités multi-modales. Dans ce travail, nous introduisons un modèle de langage multi-modal polyvalent, mPLUG-Owl2, qui exploite efficacement la collaboration entre modalités pour améliorer les performances dans les tâches textuelles et multi-modales. mPLUG-Owl2 utilise une conception de réseau modulaire, avec le décodeur de langage agissant comme une interface universelle pour gérer les différentes modalités. Plus précisément, mPLUG-Owl2 intègre des modules fonctionnels partagés pour faciliter la collaboration entre modalités et introduit un module adaptatif aux modalités qui préserve les caractéristiques spécifiques à chaque modalité. Des expériences approfondies révèlent que mPLUG-Owl2 est capable de généraliser à la fois les tâches textuelles et multi-modales et d'atteindre des performances de pointe avec un seul modèle générique. Notamment, mPLUG-Owl2 est le premier modèle MLLM à démontrer le phénomène de collaboration entre modalités dans des scénarios purement textuels et multi-modaux, traçant ainsi une voie pionnière dans le développement des futurs modèles de base multi-modaux.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.