ChatPaper.aiChatPaper

mPLUG-Owl2: Revolutionierung von Multi-modalen Großen Sprachmodellen durch Modalkollaboration

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

November 7, 2023
Autoren: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten bei der Bewältigung verschiedener offener Aufgaben gezeigt. Bisherige Methoden konzentrierten sich jedoch hauptsächlich auf die Verbesserung multimodaler Fähigkeiten. In dieser Arbeit stellen wir ein vielseitiges multimodales Large Language Model, mPLUG-Owl2, vor, das effektiv die Zusammenarbeit zwischen Modalitäten nutzt, um die Leistung sowohl bei Text- als auch bei multimodalen Aufgaben zu steigern. mPLUG-Owl2 verwendet ein modularisiertes Netzwerkdesign, bei dem der Sprachdekoder als universelle Schnittstelle zur Verwaltung verschiedener Modalitäten fungiert. Insbesondere integriert mPLUG-Owl2 gemeinsame Funktionsmodule, um die Zusammenarbeit zwischen Modalitäten zu erleichtern, und führt ein modalitätsadaptives Modul ein, das modalitätsspezifische Merkmale bewahrt. Umfangreiche Experimente zeigen, dass mPLUG-Owl2 in der Lage ist, sowohl Textaufgaben als auch multimodale Aufgaben zu generalisieren und mit einem einzigen generischen Modell Spitzenleistungen zu erzielen. Bemerkenswerterweise ist mPLUG-Owl2 das erste MLLM-Modell, das das Phänomen der Modalitätszusammenarbeit sowohl in reinen Text- als auch in multimodalen Szenarien demonstriert und damit einen wegweisenden Pfad für die Entwicklung zukünftiger multimodaler Basismodelle ebnet.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
PDF222December 15, 2024