MM1: Métodos, Análise e Insights do Pré-treinamento de Modelos Multimodais de Linguagem
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Autores: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Resumo
Neste trabalho, discutimos a construção de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) de alto desempenho. Em particular, estudamos a importância de vários componentes arquitetônicos e escolhas de dados. Por meio de ablações cuidadosas e abrangentes do codificador de imagem, do conector visão-linguagem e de diversas escolhas de dados de pré-treinamento, identificamos várias lições cruciais de design. Por exemplo, demonstramos que, para o pré-treinamento multimodal em grande escala, o uso de uma mistura cuidadosa de dados de legenda de imagem, texto intercalado com imagem e apenas texto é essencial para alcançar resultados de ponta (SOTA) em poucas tentativas em vários benchmarks, em comparação com outros resultados de pré-treinamento publicados. Além disso, mostramos que o codificador de imagem, juntamente com a resolução da imagem e a contagem de tokens de imagem, tem um impacto substancial, enquanto o design do conector visão-linguagem é de importância comparativamente insignificante. Ao escalar a receita apresentada, construímos o MM1, uma família de modelos multimodais com até 30 bilhões de parâmetros, consistindo tanto de modelos densos quanto de variantes de mistura de especialistas (MoE), que são SOTA em métricas de pré-treinamento e alcançam desempenho competitivo após ajuste fino supervisionado em uma série de benchmarks multimodais estabelecidos. Graças ao pré-treinamento em grande escala, o MM1 possui propriedades atraentes, como aprendizado em contexto aprimorado e raciocínio com múltiplas imagens, permitindo prompts de cadeia de pensamento com poucas tentativas.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.