MM-LLMs: Последние достижения в области мультимодальных больших языковых моделей
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Авторы: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Аннотация
За последний год мультимодальные большие языковые модели (MM-LLMs) претерпели значительные улучшения, расширяя возможности готовых LLM для поддержки мультимодальных входных или выходных данных с помощью экономически эффективных стратегий обучения. Полученные модели не только сохраняют присущие LLM способности к рассуждению и принятию решений, но и расширяют возможности для выполнения широкого спектра мультимодальных задач. В данной статье мы представляем всесторонний обзор, направленный на содействие дальнейшим исследованиям в области MM-LLM. В частности, мы сначала описываем общие принципы проектирования архитектуры модели и процесса обучения. Затем мы кратко представляем 26 существующих MM-LLM, каждая из которых характеризуется своими специфическими подходами. Кроме того, мы анализируем производительность MM-LLM на основных бенчмарках и обобщаем ключевые методы обучения для повышения эффективности MM-LLM. Наконец, мы исследуем перспективные направления развития MM-LLM, одновременно поддерживая веб-сайт для отслеживания последних достижений в этой области в режиме реального времени. Мы надеемся, что этот обзор внесет вклад в дальнейшее развитие области MM-LLM.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.