Eine empirische Studie zur Skalierung von instruktionsfeinabgestimmten großen multimodalen Modellen
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Autoren: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Zusammenfassung
Das visuelle Instruktions-Tuning hat in letzter Zeit mit Open-Source-Modellen für große multimodale Modelle (LMM) wie LLaVA und MiniGPT-4 ermutigende Fortschritte gezeigt. Die meisten bestehenden Studien zu Open-Source-LMMs verwenden jedoch Modelle mit 13 Milliarden Parametern oder weniger. In diesem Artikel präsentieren wir eine empirische Studie zur Skalierung von LLaVA auf 33 Milliarden und 65/70 Milliarden Parameter und teilen unsere Erkenntnisse aus Untersuchungen zu Bildauflösung, Datenmischung und parameter-effizienten Trainingsmethoden wie LoRA/QLoRA. Diese werden anhand ihrer Auswirkungen auf die multimodalen und sprachlichen Fähigkeiten bei der Bewältigung realer Aufgaben in der Praxis bewertet.
Wir stellen fest, dass die Skalierung von LMMs die Modellleistung und die sprachlichen Fähigkeiten konsequent verbessert und dass die Leistung von LoRA/QLoRA-Tuning von LMMs mit der Leistung des vollständigen Fein-Tunings vergleichbar ist. Darüber hinaus unterstreicht die Studie die Bedeutung höherer Bildauflösungen und der Mischung multimodaler Sprachdaten zur Verbesserung der LMM-Leistung, und visuelles Instruktions-Tuning kann manchmal die rein sprachliche Fähigkeit von LMMs verbessern. Wir hoffen, dass diese Studie die Forschung zu state-of-the-art LMMs in größerem Maßstab zugänglicher macht und somit dazu beiträgt, stärkere Baselines für zukünftige Forschung zu etablieren. Code und Checkpoints werden öffentlich zugänglich gemacht.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.