Een Empirische Studie naar het Schalen van Instructie-afgestemde Grote Multimodale Modellen
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Auteurs: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Samenvatting
Visuele instructie-afstemming heeft recentelijk veelbelovende vooruitgang geboekt met open-source grote multimodale modellen (LMM) zoals LLaVA en MiniGPT-4. De meeste bestaande studies van open-source LMM worden echter uitgevoerd met modellen van 13B parameters of kleiner. In dit paper presenteren we een empirische studie van het opschalen van LLaVA tot 33B en 65B/70B, en delen we onze bevindingen uit onze verkenningen van beeldresolutie, datamenging en parameter-efficiënte trainingsmethoden zoals LoRA/QLoRA. Deze worden geëvalueerd op basis van hun impact op de multimodale en taalvaardigheden bij het uitvoeren van real-world taken in de praktijk.
We constateren dat het opschalen van LMM consistent de modelprestaties verbetert en de taalvaardigheden versterkt, en dat de prestaties van LoRA/QLoRA-afstemming van LMM vergelijkbaar zijn met de prestaties van volledige model-finetuning. Daarnaast benadrukt de studie het belang van hogere beeldresoluties en het mengen van multimodale-taalgegevens om de prestaties van LMM te verbeteren, en kan visuele instructie-afstemming soms de pure taalvaardigheid van LMM verbeteren. We hopen dat deze studie state-of-the-art LMM-onderzoek op grotere schaal toegankelijker maakt, waardoor sterkere basislijnen voor toekomstig onderzoek worden gevestigd. Code en checkpoints zullen openbaar worden gemaakt.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.