MM1: Metodi, Analisi e Approfondimenti dal Pre-addestramento di Modelli Linguistici Multimodali
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Autori: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Abstract
In questo lavoro, discutiamo la costruzione di Modelli Linguistici Multimodali ad alte prestazioni (MLLMs). In particolare, studiamo l'importanza di vari componenti architetturali e scelte relative ai dati. Attraverso ablazioni accurate e complete dell'encoder di immagini, del connettore visione-linguaggio e di varie scelte di dati di pre-training, abbiamo identificato diverse lezioni cruciali per il design. Ad esempio, dimostriamo che per il pre-training multimodale su larga scala, l'uso di un mix accurato di dati con didascalie di immagini, testi intervallati da immagini e dati solo testuali è fondamentale per ottenere risultati few-shot all'avanguardia (SOTA) su più benchmark, rispetto ad altri risultati di pre-training pubblicati. Inoltre, mostriamo che l'encoder di immagini, insieme alla risoluzione delle immagini e al numero di token delle immagini, ha un impatto sostanziale, mentre il design del connettore visione-linguaggio è di importanza relativamente trascurabile. Scalando la ricetta presentata, costruiamo MM1, una famiglia di modelli multimodali fino a 30 miliardi di parametri, composta sia da modelli densi che da varianti a miscela di esperti (MoE), che sono SOTA nelle metriche di pre-training e raggiungono prestazioni competitive dopo il fine-tuning supervisionato su una gamma di benchmark multimodali consolidati. Grazie al pre-training su larga scala, MM1 gode di proprietà interessanti come un migliorato apprendimento in-context e il ragionamento su più immagini, abilitando il prompting few-shot a catena di pensiero.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.