MM1 : Méthodes, analyses et enseignements issus du pré-entraßnement de modÚles de langage multimodauxMM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
Dans ce travail, nous discutons de la construction de modÚles de langage multimodaux à grande échelle (MLLMs) performants. Plus précisément, nous étudions l'importance de divers composants architecturaux et choix de données. Grùce à des ablations minutieuses et exhaustives de l'encodeur d'images, du connecteur vision-langage et de divers choix de données de pré-entraßnement, nous avons identifié plusieurs leçons de conception cruciales. Par exemple, nous démontrons que pour un pré-entraßnement multimodal à grande échelle, l'utilisation d'un mélange judicieux de données d'images-légendes, de textes entrelacés d'images et de textes uniquement est essentielle pour obtenir des résultats de pointe (SOTA) en few-shot sur plusieurs benchmarks, par rapport à d'autres résultats de pré-entraßnement publiés. De plus, nous montrons que l'encodeur d'images, ainsi que la résolution des images et le nombre de tokens d'images, ont un impact substantiel, tandis que la conception du connecteur vision-langage est d'une importance relativement négligeable. En mettant à l'échelle la recette présentée, nous construisons MM1, une famille de modÚles multimodaux allant jusqu'à 30 milliards de paramÚtres, comprenant à la fois des modÚles denses et des variantes de mélange d'experts (MoE), qui sont SOTA en termes de métriques de pré-entraßnement et obtiennent des performances compétitives aprÚs un fine-tuning supervisé sur une gamme de benchmarks multimodaux établis. Grùce à un pré-entraßnement à grande échelle, MM1 bénéficie de propriétés attrayantes telles qu'un apprentissage en contexte amélioré et un raisonnement multi-images, permettant un prompting en chaßne de pensée en few-shot.