MM1: Methoden, Analyse & Inzichten uit Multimodale LLM Pre-training
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Auteurs: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Samenvatting
In dit werk bespreken we het bouwen van hoogwaardige Multimodale Grote Taalmodellen (MLLMs). In het bijzonder onderzoeken we het belang van verschillende architectuurcomponenten en datakeuzes. Door zorgvuldige en uitgebreide ablatie-experimenten van de beeldencoder, de visie-taalverbinder en diverse keuzes voor pre-trainingsdata, hebben we verschillende cruciale ontwerp-lessen geïdentificeerd. We tonen bijvoorbeeld aan dat voor grootschalige multimodale pre-training een zorgvuldige mix van beeld-bijschrift, afgewisselde beeld-tekst en alleen-tekst data essentieel is om state-of-the-art (SOTA) few-shot resultaten te behalen op meerdere benchmarks, vergeleken met andere gepubliceerde pre-trainingsresultaten. Verder laten we zien dat de beeldencoder, samen met de beeldresolutie en het aantal beeldtokens, een aanzienlijke impact heeft, terwijl het ontwerp van de visie-taalverbinder relatief verwaarloosbaar is. Door het gepresenteerde recept op te schalen, bouwen we MM1, een familie van multimodale modellen tot 30B parameters, bestaande uit zowel dense modellen als mixture-of-experts (MoE) varianten, die SOTA zijn in pre-trainingsmetrieken en competitieve prestaties behalen na supervised fine-tuning op een reeks gevestigde multimodale benchmarks. Dankzij grootschalige pre-training beschikt MM1 over aantrekkelijke eigenschappen zoals verbeterd in-context leren en multi-image redeneren, waardoor few-shot chain-of-thought prompting mogelijk wordt.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.