ChatPaper.aiChatPaper

mPLUG-Owl2: Rivoluzionare il Modello Linguistico Multimodale di Grande Scala con la Collaborazione tra Modalità

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

November 7, 2023
Autori: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato impressionanti capacità di esecuzione di istruzioni in una vasta gamma di compiti aperti. Tuttavia, i metodi precedenti si sono principalmente concentrati sul potenziamento delle capacità multimodali. In questo lavoro, introduciamo un modello linguistico multimodale versatile, mPLUG-Owl2, che sfrutta efficacemente la collaborazione tra modalità per migliorare le prestazioni sia nei compiti testuali che in quelli multimodali. mPLUG-Owl2 utilizza una progettazione modulare della rete, con il decodificatore linguistico che funge da interfaccia universale per gestire diverse modalità. Nello specifico, mPLUG-Owl2 incorpora moduli funzionali condivisi per facilitare la collaborazione tra modalità e introduce un modulo adattivo alle modalità che preserva le caratteristiche specifiche di ciascuna modalità. Esperimenti estensivi rivelano che mPLUG-Owl2 è in grado di generalizzare sia i compiti testuali che quelli multimodali e di raggiungere prestazioni all'avanguardia con un unico modello generico. È importante notare che mPLUG-Owl2 è il primo modello MLLM a dimostrare il fenomeno della collaborazione tra modalità sia in scenari puramente testuali che multimodali, tracciando una strada pionieristica nello sviluppo di futuri modelli di base multimodali.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
PDF222February 8, 2026