Uno Studio Empirico sul Ridimensionamento di Modelli Multimodali di Grandi Dimensioni con Addestramento Istruttivo

Abstract

Il tuning delle istruzioni visive ha recentemente mostrato progressi incoraggianti con modelli multimodali di grandi dimensioni (LMM) open-source come LLaVA e MiniGPT-4. Tuttavia, la maggior parte degli studi esistenti sui LMM open-source viene condotta utilizzando modelli con 13 miliardi di parametri o meno. In questo articolo presentiamo uno studio empirico sul ridimensionamento di LLaVA fino a 33 miliardi e 65/70 miliardi di parametri, e condividiamo le nostre scoperte derivanti dalle esplorazioni sulla risoluzione delle immagini, il mix di dati e i metodi di addestramento efficiente in termini di parametri come LoRA/QLoRA. Questi vengono valutati in base al loro impatto sulle capacità multimodali e linguistiche durante il completamento di compiti reali in contesti non controllati. Abbiamo riscontrato che il ridimensionamento dei LMM migliora costantemente le prestazioni del modello e potenzia le capacità linguistiche, e che le prestazioni del tuning LoRA/QLoRA dei LMM sono comparabili a quelle del fine-tuning completo del modello. Inoltre, lo studio evidenzia l'importanza di risoluzioni delle immagini più elevate e del mix di dati multimodali-linguistici per migliorare le prestazioni dei LMM, e che il tuning delle istruzioni visive può talvolta migliorare la pura capacità linguistica dei LMM. Speriamo che questo studio renda la ricerca all'avanguardia sui LMM su scala più ampia più accessibile, contribuendo così a stabilire baseline più solide per le ricerche future. Codice e checkpoint saranno resi pubblici.

English

Visual instruction tuning has recently shown encouraging progress with open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However, most existing studies of open-source LMM are performed using models with 13B parameters or smaller. In this paper we present an empirical study of scaling LLaVA up to 33B and 65B/70B, and share our findings from our explorations in image resolution, data mixing and parameter-efficient training methods such as LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language capabilities when completing real-world tasks in the wild. We find that scaling LMM consistently enhances model performance and improves language capabilities, and performance of LoRA/QLoRA tuning of LMM are comparable to the performance of full-model fine-tuning. Additionally, the study highlights the importance of higher image resolutions and mixing multimodal-language data to improve LMM performance, and visual instruction tuning can sometimes improve LMM's pure language capability. We hope that this study makes state-of-the-art LMM research at a larger scale more accessible, thus helping establish stronger baselines for future research. Code and checkpoints will be made public.

Uno Studio Empirico sul Ridimensionamento di Modelli Multimodali di Grandi Dimensioni con Addestramento Istruttivo

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

Abstract

Support