Un Estudio Empírico sobre la Escalabilidad de Modelos Multimodales Grandes Ajustados por Instrucciones
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Autores: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Resumen
El ajuste mediante instrucciones visuales ha mostrado recientemente avances alentadores con modelos multimodales grandes (LMM) de código abierto como LLaVA y MiniGPT-4. Sin embargo, la mayoría de los estudios existentes sobre LMM de código abierto se realizan utilizando modelos con 13 mil millones de parámetros o menos. En este artículo presentamos un estudio empírico sobre la escalabilidad de LLaVA hasta 33 mil millones y 65/70 mil millones de parámetros, y compartimos nuestros hallazgos en exploraciones sobre resolución de imágenes, mezcla de datos y métodos de entrenamiento eficientes en parámetros como LoRA/QLoRA. Estos se evalúan por su impacto en las capacidades multimodales y lingüísticas al completar tareas del mundo real en entornos diversos.
Descubrimos que escalar los LMM mejora consistentemente el rendimiento del modelo y las capacidades lingüísticas, y que el rendimiento del ajuste mediante LoRA/QLoRA en LMM es comparable al del ajuste fino completo del modelo. Además, el estudio destaca la importancia de resoluciones de imagen más altas y la mezcla de datos multimodales-lingüísticos para mejorar el rendimiento de los LMM, y que el ajuste mediante instrucciones visuales puede, en ocasiones, mejorar la capacidad puramente lingüística de los LMM. Esperamos que este estudio haga que la investigación de vanguardia en LMM a mayor escala sea más accesible, ayudando así a establecer líneas base más sólidas para futuras investigaciones. El código y los puntos de control se harán públicos.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.