ChatPaper.aiChatPaper

MM-LLMs: Recente ontwikkelingen in Multimodale Grote Taalmodellen

MM-LLMs: Recent Advances in MultiModal Large Language Models

January 24, 2024
Auteurs: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI

Samenvatting

In het afgelopen jaar hebben MultiModal Large Language Models (MM-LLMs) aanzienlijke vooruitgang geboekt, waarbij kant-en-klare LLMs zijn uitgebreid om multimodale invoer of uitvoer te ondersteunen via kosteneffectieve trainingsstrategieën. De resulterende modellen behouden niet alleen de inherente redeneer- en besluitvormingscapaciteiten van LLMs, maar maken ook een breed scala aan multimodale taken mogelijk. In dit artikel bieden we een uitgebreid overzicht dat gericht is op het faciliteren van verder onderzoek naar MM-LLMs. Specifiek schetsen we eerst algemene ontwerpformuleringen voor modelarchitectuur en trainingspijplijn. Vervolgens geven we korte introducties van 26 bestaande MM-LLMs, elk gekenmerkt door specifieke formuleringen. Daarnaast bespreken we de prestaties van MM-LLMs op gangbare benchmarks en vatten we belangrijke trainingsrecepten samen om de kracht van MM-LLMs te vergroten. Tot slot verkennen we veelbelovende richtingen voor MM-LLMs, terwijl we tegelijkertijd een real-time trackingwebsite onderhouden voor de nieuwste ontwikkelingen in het veld. We hopen dat dit overzicht bijdraagt aan de voortdurende vooruitgang van het MM-LLMs-domein.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of 26 existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
PDF485December 15, 2024