MM-LLMs: Progressi Recenti nei Modelli Linguistici Multimodali di Grande Dimensione
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Autori: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Abstract
Nell'ultimo anno, i Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno compiuto progressi significativi, potenziando i modelli linguistici preesistenti per supportare input o output multimodali attraverso strategie di formazione economicamente vantaggiose. I modelli risultanti non solo preservano le capacità intrinseche di ragionamento e decisione dei LLM, ma abilitano anche una vasta gamma di attività multimodali. In questo articolo, forniamo una rassegna completa finalizzata a facilitare ulteriori ricerche sugli MM-LLMs. Nello specifico, delineiamo prima di tutto le formulazioni generali per l'architettura del modello e la pipeline di addestramento. Successivamente, presentiamo brevi introduzioni di 26 MM-LLMs esistenti, ciascuno caratterizzato dalle sue specifiche formulazioni. Inoltre, esaminiamo le prestazioni degli MM-LLMs sui benchmark principali e sintetizziamo le ricette chiave per potenziare l'efficacia degli MM-LLMs. Infine, esploriamo direzioni promettenti per gli MM-LLMs, mantenendo contemporaneamente un sito web di tracciamento in tempo reale per gli ultimi sviluppi nel campo. Speriamo che questa rassegna contribuisca al progresso continuo del dominio degli MM-LLMs.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.