mPLUG-Owl2: Революция в многомодальных больших языковых моделях через коллаборацию модальностей
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
November 7, 2023
Авторы: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности к выполнению инструкций в различных открытых задачах. Однако предыдущие методы в основном сосредоточены на улучшении мультимодальных возможностей. В данной работе мы представляем универсальную мультимодальную большую языковую модель mPLUG-Owl2, которая эффективно использует взаимодействие модальностей для повышения производительности как в текстовых, так и в мультимодальных задачах. mPLUG-Owl2 использует модульную архитектуру сети, где языковой декодер выступает в качестве универсального интерфейса для управления различными модальностями. В частности, mPLUG-Owl2 включает общие функциональные модули для облегчения взаимодействия модальностей и вводит модуль, адаптирующийся к модальностям, который сохраняет специфические особенности каждой модальности. Многочисленные эксперименты показывают, что mPLUG-Owl2 способна обобщать как текстовые, так и мультимодальные задачи и достигать передовых результатов с использованием единой универсальной модели. Примечательно, что mPLUG-Owl2 является первой моделью MLLM, демонстрирующей феномен взаимодействия модальностей как в чисто текстовых, так и в мультимодальных сценариях, прокладывая новаторский путь в разработке будущих мультимодальных базовых моделей.
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.