Une étude empirique sur la mise à l'échelle de grands modèles multimodaux ajustés par instruction
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Auteurs: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Résumé
Le réglage par instruction visuelle a récemment montré des progrès encourageants avec des modèles multimodaux de grande taille (LMM) open-source tels que LLaVA et MiniGPT-4. Cependant, la plupart des études existantes sur les LMM open-source sont réalisées avec des modèles de 13 milliards de paramètres ou moins. Dans cet article, nous présentons une étude empirique sur la mise à l'échelle de LLaVA jusqu'à 33 milliards et 65/70 milliards de paramètres, et partageons nos découvertes issues de nos explorations sur la résolution d'image, le mélange de données et les méthodes d'entraînement efficaces en paramètres comme LoRA/QLoRA. Ces aspects sont évalués en fonction de leur impact sur les capacités multimodales et linguistiques lors de l'exécution de tâches réelles dans des environnements variés.
Nous constatons que la mise à l'échelle des LMM améliore systématiquement les performances du modèle et renforce les capacités linguistiques, et que les performances du réglage par LoRA/QLoRA des LMM sont comparables à celles du réglage fin complet du modèle. De plus, l'étude souligne l'importance des résolutions d'image plus élevées et du mélange de données multimodales-linguistiques pour améliorer les performances des LMM, et que le réglage par instruction visuelle peut parfois améliorer la capacité purement linguistique des LMM. Nous espérons que cette étude rendra la recherche sur les LMM de pointe à plus grande échelle plus accessible, contribuant ainsi à établir des références plus solides pour les recherches futures. Le code et les points de contrôle seront rendus publics.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.