MM-LLMs: Avanços Recentes em Modelos de Linguagem Multimodais de Grande Escala
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Autores: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Resumo
No ano passado, os Modelos de Linguagem de Grande Escala Multimodais (MM-LLMs) passaram por avanços significativos, aprimorando modelos de linguagem prontos para uso (off-the-shelf) para suportar entradas ou saídas multimodais por meio de estratégias de treinamento de baixo custo. Os modelos resultantes não apenas preservam as capacidades inerentes de raciocínio e tomada de decisão dos LLMs, mas também capacitam uma ampla gama de tarefas multimodais. Neste artigo, fornecemos uma revisão abrangente com o objetivo de facilitar pesquisas futuras sobre MM-LLMs. Especificamente, primeiro delineamos formulações gerais de design para a arquitetura do modelo e o pipeline de treinamento. Em seguida, apresentamos breves introduções de 26 MM-LLMs existentes, cada um caracterizado por suas formulações específicas. Além disso, revisamos o desempenho dos MM-LLMs em benchmarks principais e resumimos as principais receitas de treinamento para aumentar a eficácia dos MM-LLMs. Por fim, exploramos direções promissoras para os MM-LLMs enquanto mantemos um site de acompanhamento em tempo real para os últimos desenvolvimentos na área. Esperamos que esta revisão contribua para o avanço contínuo do domínio dos MM-LLMs.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.