MM-LLMs: Recente ontwikkelingen in Multimodale Grote Taalmodellen
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Auteurs: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Samenvatting
In het afgelopen jaar hebben MultiModal Large Language Models (MM-LLMs) aanzienlijke vooruitgang geboekt, waarbij kant-en-klare LLMs zijn uitgebreid om multimodale invoer of uitvoer te ondersteunen via kosteneffectieve trainingsstrategieën. De resulterende modellen behouden niet alleen de inherente redeneer- en besluitvormingscapaciteiten van LLMs, maar maken ook een breed scala aan multimodale taken mogelijk. In dit artikel bieden we een uitgebreid overzicht dat gericht is op het faciliteren van verder onderzoek naar MM-LLMs. Specifiek schetsen we eerst algemene ontwerpformuleringen voor modelarchitectuur en trainingspijplijn. Vervolgens geven we korte introducties van 26 bestaande MM-LLMs, elk gekenmerkt door specifieke formuleringen. Daarnaast bespreken we de prestaties van MM-LLMs op gangbare benchmarks en vatten we belangrijke trainingsrecepten samen om de kracht van MM-LLMs te vergroten. Tot slot verkennen we veelbelovende richtingen voor MM-LLMs, terwijl we tegelijkertijd een real-time trackingwebsite onderhouden voor de nieuwste ontwikkelingen in het veld. We hopen dat dit overzicht bijdraagt aan de voortdurende vooruitgang van het MM-LLMs-domein.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.