ChatPaper.aiChatPaper

mPLUG-Owl2: Revolutie in Multi-modale Grote Taalmodellen met Modale Samenwerking

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

November 7, 2023
Auteurs: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI

Samenvatting

Multi-modale Large Language Models (MLLMs) hebben indrukwekkende instructievaardigheden getoond bij diverse open-ended taken. Eerdere methoden richtten zich echter voornamelijk op het verbeteren van multi-modale capaciteiten. In dit werk introduceren we een veelzijdig multi-modale large language model, mPLUG-Owl2, dat effectief gebruikmaakt van modale samenwerking om de prestaties in zowel tekst- als multi-modale taken te verbeteren. mPLUG-Owl2 maakt gebruik van een gemodulariseerd netwerkontwerp, waarbij de taaldecoder fungeert als een universele interface voor het beheren van verschillende modaliteiten. Specifiek integreert mPLUG-Owl2 gedeelde functionele modules om modale samenwerking te vergemakkelijken en introduceert het een modaal-adaptieve module die modaal-specifieke kenmerken behoudt. Uitgebreide experimenten tonen aan dat mPLUG-Owl2 in staat is om zowel teksttaken als multi-modale taken te generaliseren en state-of-the-art prestaties te behalen met een enkel generiek model. Opmerkelijk is dat mPLUG-Owl2 het eerste MLLM-model is dat het fenomeen van modale samenwerking aantoont in zowel pure tekst- als multi-modale scenario's, waarmee het een baanbrekend pad uitzet in de ontwikkeling van toekomstige multi-modale foundation models.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
PDF222February 8, 2026