mPLUG-Owl2: Rivoluzionare il Modello Linguistico Multimodale di Grande Scala con la Collaborazione tra Modalità
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
November 7, 2023
Autori: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato impressionanti capacità di esecuzione di istruzioni in una vasta gamma di compiti aperti. Tuttavia, i metodi precedenti si sono principalmente concentrati sul potenziamento delle capacità multimodali. In questo lavoro, introduciamo un modello linguistico multimodale versatile, mPLUG-Owl2, che sfrutta efficacemente la collaborazione tra modalità per migliorare le prestazioni sia nei compiti testuali che in quelli multimodali. mPLUG-Owl2 utilizza una progettazione modulare della rete, con il decodificatore linguistico che funge da interfaccia universale per gestire diverse modalità. Nello specifico, mPLUG-Owl2 incorpora moduli funzionali condivisi per facilitare la collaborazione tra modalità e introduce un modulo adattivo alle modalità che preserva le caratteristiche specifiche di ciascuna modalità. Esperimenti estensivi rivelano che mPLUG-Owl2 è in grado di generalizzare sia i compiti testuali che quelli multimodali e di raggiungere prestazioni all'avanguardia con un unico modello generico. È importante notare che mPLUG-Owl2 è il primo modello MLLM a dimostrare il fenomeno della collaborazione tra modalità sia in scenari puramente testuali che multimodali, tracciando una strada pionieristica nello sviluppo di futuri modelli di base multimodali.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.