MM-LLMs: Avanços Recentes em Modelos de Linguagem Multimodais de Grande Escala

Resumo

No ano passado, os Modelos de Linguagem de Grande Escala Multimodais (MM-LLMs) passaram por avanços significativos, aprimorando modelos de linguagem prontos para uso (off-the-shelf) para suportar entradas ou saídas multimodais por meio de estratégias de treinamento de baixo custo. Os modelos resultantes não apenas preservam as capacidades inerentes de raciocínio e tomada de decisão dos LLMs, mas também capacitam uma ampla gama de tarefas multimodais. Neste artigo, fornecemos uma revisão abrangente com o objetivo de facilitar pesquisas futuras sobre MM-LLMs. Especificamente, primeiro delineamos formulações gerais de design para a arquitetura do modelo e o pipeline de treinamento. Em seguida, apresentamos breves introduções de 26 MM-LLMs existentes, cada um caracterizado por suas formulações específicas. Além disso, revisamos o desempenho dos MM-LLMs em benchmarks principais e resumimos as principais receitas de treinamento para aumentar a eficácia dos MM-LLMs. Por fim, exploramos direções promissoras para os MM-LLMs enquanto mantemos um site de acompanhamento em tempo real para os últimos desenvolvimentos na área. Esperamos que esta revisão contribua para o avanço contínuo do domínio dos MM-LLMs.

English

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of 26 existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

MM-LLMs: Avanços Recentes em Modelos de Linguagem Multimodais de Grande Escala

MM-LLMs: Recent Advances in MultiModal Large Language Models

Resumo

Support