Um Estudo Empírico sobre a Escalabilidade de Modelos Multimodais Grandes Ajustados por Instrução

Resumo

O ajuste fino por instrução visual tem mostrado progressos encorajadores recentemente com modelos multimodais grandes (LMM) de código aberto, como LLaVA e MiniGPT-4. No entanto, a maioria dos estudos existentes sobre LMM de código aberto é realizada usando modelos com 13 bilhões de parâmetros ou menos. Neste artigo, apresentamos um estudo empírico sobre a escalabilidade do LLaVA até 33B e 65B/70B, e compartilhamos nossas descobertas a partir de explorações em resolução de imagem, mistura de dados e métodos de treinamento eficiente em parâmetros, como LoRA/QLoRA. Esses aspectos são avaliados pelo seu impacto nas capacidades multimodais e de linguagem ao realizar tarefas do mundo real. Descobrimos que a escalabilidade do LMM melhora consistentemente o desempenho do modelo e aprimora as capacidades de linguagem, e o desempenho do ajuste fino com LoRA/QLoRA em LMM é comparável ao ajuste fino completo do modelo. Além disso, o estudo destaca a importância de resoluções de imagem mais altas e da mistura de dados multimodais e de linguagem para melhorar o desempenho do LMM, e o ajuste fino por instrução visual pode, em alguns casos, aprimorar a capacidade puramente linguística do LMM. Esperamos que este estudo torne a pesquisa de ponta em LMM em maior escala mais acessível, ajudando assim a estabelecer bases mais sólidas para pesquisas futuras. O código e os checkpoints serão disponibilizados publicamente.

English

Visual instruction tuning has recently shown encouraging progress with open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However, most existing studies of open-source LMM are performed using models with 13B parameters or smaller. In this paper we present an empirical study of scaling LLaVA up to 33B and 65B/70B, and share our findings from our explorations in image resolution, data mixing and parameter-efficient training methods such as LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language capabilities when completing real-world tasks in the wild. We find that scaling LMM consistently enhances model performance and improves language capabilities, and performance of LoRA/QLoRA tuning of LMM are comparable to the performance of full-model fine-tuning. Additionally, the study highlights the importance of higher image resolutions and mixing multimodal-language data to improve LMM performance, and visual instruction tuning can sometimes improve LMM's pure language capability. We hope that this study makes state-of-the-art LMM research at a larger scale more accessible, thus helping establish stronger baselines for future research. Code and checkpoints will be made public.

Um Estudo Empírico sobre a Escalabilidade de Modelos Multimodais Grandes Ajustados por Instrução

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

Resumo

Support