Эмпирическое исследование масштабирования крупных мультимодальных моделей с инструктивной настройкой
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
September 18, 2023
Авторы: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
cs.AI
Аннотация
Настройка визуальных инструкций недавно продемонстрировала обнадеживающий прогресс с использованием открытых крупных мультимодальных моделей (LMM), таких как LLaVA и MiniGPT-4. Однако большинство существующих исследований открытых LMM проводятся с использованием моделей, содержащих 13 миллиардов параметров или меньше. В данной статье мы представляем эмпирическое исследование масштабирования LLaVA до 33 миллиардов и 65/70 миллиардов параметров, а также делимся результатами наших экспериментов с разрешением изображений, смешиванием данных и параметрически эффективными методами обучения, такими как LoRA/QLoRA. Эти подходы оцениваются по их влиянию на мультимодальные и языковые способности при выполнении реальных задач в естественных условиях.
Мы обнаружили, что масштабирование LMM последовательно улучшает производительность модели и языковые способности, а результаты настройки с использованием LoRA/QLoRA сопоставимы с полной тонкой настройкой модели. Кроме того, исследование подчеркивает важность использования более высоких разрешений изображений и смешивания мультимодально-языковых данных для повышения производительности LMM, а также то, что настройка визуальных инструкций иногда может улучшить чистую языковую способность LMM. Мы надеемся, что это исследование сделает передовые исследования LMM в более крупных масштабах более доступными, тем самым помогая установить более сильные базовые линии для будущих исследований. Код и контрольные точки будут опубликованы.
English
Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.