MM1 : Méthodes, analyses et enseignements issus du pré-entraînement de modèles de langage multimodaux
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Auteurs: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Résumé
Dans ce travail, nous discutons de la construction de modèles de langage multimodaux à grande échelle (MLLMs) performants. Plus précisément, nous étudions l'importance de divers composants architecturaux et choix de données. Grâce à des ablations minutieuses et exhaustives de l'encodeur d'images, du connecteur vision-langage et de divers choix de données de pré-entraînement, nous avons identifié plusieurs leçons de conception cruciales. Par exemple, nous démontrons que pour un pré-entraînement multimodal à grande échelle, l'utilisation d'un mélange judicieux de données d'images-légendes, de textes entrelacés d'images et de textes uniquement est essentielle pour obtenir des résultats de pointe (SOTA) en few-shot sur plusieurs benchmarks, par rapport à d'autres résultats de pré-entraînement publiés. De plus, nous montrons que l'encodeur d'images, ainsi que la résolution des images et le nombre de tokens d'images, ont un impact substantiel, tandis que la conception du connecteur vision-langage est d'une importance relativement négligeable. En mettant à l'échelle la recette présentée, nous construisons MM1, une famille de modèles multimodaux allant jusqu'à 30 milliards de paramètres, comprenant à la fois des modèles denses et des variantes de mélange d'experts (MoE), qui sont SOTA en termes de métriques de pré-entraînement et obtiennent des performances compétitives après un fine-tuning supervisé sur une gamme de benchmarks multimodaux établis. Grâce à un pré-entraînement à grande échelle, MM1 bénéficie de propriétés attrayantes telles qu'un apprentissage en contexte amélioré et un raisonnement multi-images, permettant un prompting en chaîne de pensée en few-shot.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.Summary
AI-Generated Summary