Um Estudo Empírico sobre a Escalabilidade de Modelos Multimodais Grandes Ajustados por Instrução
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Autores: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Resumo
O ajuste fino por instrução visual tem mostrado progressos encorajadores recentemente com modelos multimodais grandes (LMM) de código aberto, como LLaVA e MiniGPT-4. No entanto, a maioria dos estudos existentes sobre LMM de código aberto é realizada usando modelos com 13 bilhões de parâmetros ou menos. Neste artigo, apresentamos um estudo empírico sobre a escalabilidade do LLaVA até 33B e 65B/70B, e compartilhamos nossas descobertas a partir de explorações em resolução de imagem, mistura de dados e métodos de treinamento eficiente em parâmetros, como LoRA/QLoRA. Esses aspectos são avaliados pelo seu impacto nas capacidades multimodais e de linguagem ao realizar tarefas do mundo real.
Descobrimos que a escalabilidade do LMM melhora consistentemente o desempenho do modelo e aprimora as capacidades de linguagem, e o desempenho do ajuste fino com LoRA/QLoRA em LMM é comparável ao ajuste fino completo do modelo. Além disso, o estudo destaca a importância de resoluções de imagem mais altas e da mistura de dados multimodais e de linguagem para melhorar o desempenho do LMM, e o ajuste fino por instrução visual pode, em alguns casos, aprimorar a capacidade puramente linguística do LMM. Esperamos que este estudo torne a pesquisa de ponta em LMM em maior escala mais acessível, ajudando assim a estabelecer bases mais sólidas para pesquisas futuras. O código e os checkpoints serão disponibilizados publicamente.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.