MM1: Metodi, Analisi e Approfondimenti dal Pre-addestramento di Modelli Linguistici Multimodali

Abstract

In questo lavoro, discutiamo la costruzione di Modelli Linguistici Multimodali ad alte prestazioni (MLLMs). In particolare, studiamo l'importanza di vari componenti architetturali e scelte relative ai dati. Attraverso ablazioni accurate e complete dell'encoder di immagini, del connettore visione-linguaggio e di varie scelte di dati di pre-training, abbiamo identificato diverse lezioni cruciali per il design. Ad esempio, dimostriamo che per il pre-training multimodale su larga scala, l'uso di un mix accurato di dati con didascalie di immagini, testi intervallati da immagini e dati solo testuali è fondamentale per ottenere risultati few-shot all'avanguardia (SOTA) su più benchmark, rispetto ad altri risultati di pre-training pubblicati. Inoltre, mostriamo che l'encoder di immagini, insieme alla risoluzione delle immagini e al numero di token delle immagini, ha un impatto sostanziale, mentre il design del connettore visione-linguaggio è di importanza relativamente trascurabile. Scalando la ricetta presentata, costruiamo MM1, una famiglia di modelli multimodali fino a 30 miliardi di parametri, composta sia da modelli densi che da varianti a miscela di esperti (MoE), che sono SOTA nelle metriche di pre-training e raggiungono prestazioni competitive dopo il fine-tuning supervisionato su una gamma di benchmark multimodali consolidati. Grazie al pre-training su larga scala, MM1 gode di proprietà interessanti come un migliorato apprendimento in-context e il ragionamento su più immagini, abilitando il prompting few-shot a catena di pensiero.

English

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

MM1: Metodi, Analisi e Approfondimenti dal Pre-addestramento di Modelli Linguistici Multimodali

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Abstract

Support