MM-LLMs : Progrès récents dans les modèles de langage multimodal de grande envergure

papers.abstract

Au cours de l'année écoulée, les modèles de langage multimodal de grande envergure (MM-LLMs) ont connu des avancées significatives, permettant d'étendre les capacités des modèles de langage existants pour prendre en charge des entrées ou sorties multimodales grâce à des stratégies d'entraînement économiques. Les modèles résultants non seulement préservent les capacités de raisonnement et de prise de décision inhérentes aux LLMs, mais permettent également de réaliser une variété de tâches multimodales. Dans cet article, nous proposons une revue exhaustive visant à faciliter les recherches futures sur les MM-LLMs. Plus précisément, nous décrivons d'abord les formulations générales de conception pour l'architecture des modèles et le pipeline d'entraînement. Ensuite, nous présentons brièvement 26 MM-LLMs existants, chacun caractérisé par ses formulations spécifiques. De plus, nous examinons les performances des MM-LLMs sur les benchmarks courants et résumons les principales recettes d'entraînement pour améliorer leur efficacité. Enfin, nous explorons des directions prometteuses pour les MM-LLMs tout en maintenant un site web de suivi en temps réel des dernières avancées dans ce domaine. Nous espérons que cette revue contribue à l'avancement continu du domaine des MM-LLMs.

English

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of 26 existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

MM-LLMs : Progrès récents dans les modèles de langage multimodal de grande envergure

MM-LLMs: Recent Advances in MultiModal Large Language Models

papers.abstract

Support