MM-LLMs: Progressi Recenti nei Modelli Linguistici Multimodali di Grande Dimensione

Abstract

Nell'ultimo anno, i Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno compiuto progressi significativi, potenziando i modelli linguistici preesistenti per supportare input o output multimodali attraverso strategie di formazione economicamente vantaggiose. I modelli risultanti non solo preservano le capacità intrinseche di ragionamento e decisione dei LLM, ma abilitano anche una vasta gamma di attività multimodali. In questo articolo, forniamo una rassegna completa finalizzata a facilitare ulteriori ricerche sugli MM-LLMs. Nello specifico, delineiamo prima di tutto le formulazioni generali per l'architettura del modello e la pipeline di addestramento. Successivamente, presentiamo brevi introduzioni di 26 MM-LLMs esistenti, ciascuno caratterizzato dalle sue specifiche formulazioni. Inoltre, esaminiamo le prestazioni degli MM-LLMs sui benchmark principali e sintetizziamo le ricette chiave per potenziare l'efficacia degli MM-LLMs. Infine, esploriamo direzioni promettenti per gli MM-LLMs, mantenendo contemporaneamente un sito web di tracciamento in tempo reale per gli ultimi sviluppi nel campo. Speriamo che questa rassegna contribuisca al progresso continuo del dominio degli MM-LLMs.

English

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of 26 existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

MM-LLMs: Progressi Recenti nei Modelli Linguistici Multimodali di Grande Dimensione

MM-LLMs: Recent Advances in MultiModal Large Language Models

Abstract

Support