MM-LLMs : Progrès récents dans les modèles de langage multimodal de grande envergure
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Auteurs: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Résumé
Au cours de l'année écoulée, les modèles de langage multimodal de grande envergure (MM-LLMs) ont connu des avancées significatives, permettant d'étendre les capacités des modèles de langage existants pour prendre en charge des entrées ou sorties multimodales grâce à des stratégies d'entraînement économiques. Les modèles résultants non seulement préservent les capacités de raisonnement et de prise de décision inhérentes aux LLMs, mais permettent également de réaliser une variété de tâches multimodales. Dans cet article, nous proposons une revue exhaustive visant à faciliter les recherches futures sur les MM-LLMs. Plus précisément, nous décrivons d'abord les formulations générales de conception pour l'architecture des modèles et le pipeline d'entraînement. Ensuite, nous présentons brièvement 26 MM-LLMs existants, chacun caractérisé par ses formulations spécifiques. De plus, nous examinons les performances des MM-LLMs sur les benchmarks courants et résumons les principales recettes d'entraînement pour améliorer leur efficacité. Enfin, nous explorons des directions prometteuses pour les MM-LLMs tout en maintenant un site web de suivi en temps réel des dernières avancées dans ce domaine. Nous espérons que cette revue contribue à l'avancement continu du domaine des MM-LLMs.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.