MM-LLMs: Avances Recientes en Modelos de Lenguaje Multimodales de Gran Escala
MM-LLMs: Recent Advances in MultiModal Large Language Models
January 24, 2024
Autores: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI
Resumen
En el último año, los Modelos de Lenguaje Multimodales de Gran Escala (MM-LLMs, por sus siglas en inglés) han experimentado avances significativos, ampliando las capacidades de los LLMs estándar para admitir entradas o salidas multimodales mediante estrategias de entrenamiento rentables. Los modelos resultantes no solo conservan las capacidades inherentes de razonamiento y toma de decisiones de los LLMs, sino que también potencian una amplia gama de tareas multimodales. En este artículo, presentamos una encuesta exhaustiva con el objetivo de facilitar futuras investigaciones sobre los MM-LLMs. Específicamente, primero delineamos formulaciones generales de diseño para la arquitectura del modelo y el pipeline de entrenamiento. Posteriormente, ofrecemos breves introducciones de 26 MM-LLMs existentes, cada uno caracterizado por sus formulaciones específicas. Además, revisamos el rendimiento de los MM-LLMs en benchmarks principales y resumimos recetas clave de entrenamiento para mejorar la eficacia de estos modelos. Por último, exploramos direcciones prometedoras para los MM-LLMs mientras mantenemos un sitio web de seguimiento en tiempo real con los últimos avances en el campo. Esperamos que esta encuesta contribuya al avance continuo del dominio de los MM-LLMs.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Specifically, we first outline general design formulations for model
architecture and training pipeline. Subsequently, we provide brief
introductions of 26 existing MM-LLMs, each characterized by its specific
formulations. Additionally, we review the performance of MM-LLMs on mainstream
benchmarks and summarize key training recipes to enhance the potency of
MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently
maintaining a real-time tracking website for the latest developments in the
field. We hope that this survey contributes to the ongoing advancement of the
MM-LLMs domain.