ChatPaper.aiChatPaper

MM1: Métodos, Análisis y Perspectivas del Preentrenamiento de Modelos de Lenguaje Multimodales

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

March 14, 2024
Autores: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI

Resumen

En este trabajo, discutimos la construcción de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) de alto rendimiento. En particular, estudiamos la importancia de varios componentes arquitectónicos y decisiones sobre los datos. A través de ablaciones cuidadosas y exhaustivas del codificador de imágenes, el conector visión-lenguaje y diversas opciones de datos de preentrenamiento, identificamos varias lecciones de diseño cruciales. Por ejemplo, demostramos que para el preentrenamiento multimodal a gran escala, es fundamental utilizar una mezcla cuidadosa de datos de imagen-pie de foto, texto-imagen intercalado y solo texto para lograr resultados de última generación (SOTA) en pocos ejemplos (few-shot) en múltiples benchmarks, en comparación con otros resultados de preentrenamiento publicados. Además, mostramos que el codificador de imágenes, junto con la resolución de la imagen y el número de tokens de imagen, tiene un impacto sustancial, mientras que el diseño del conector visión-lenguaje es de importancia comparativamente menor. Al escalar la receta presentada, construimos MM1, una familia de modelos multimodales de hasta 30B parámetros, que incluye tanto modelos densos como variantes de mezcla de expertos (MoE), que son SOTA en métricas de preentrenamiento y logran un rendimiento competitivo después del ajuste fino supervisado en una variedad de benchmarks multimodales establecidos. Gracias al preentrenamiento a gran escala, MM1 disfruta de propiedades atractivas, como un aprendizaje en contexto mejorado y razonamiento con múltiples imágenes, lo que permite el prompting de cadena de pensamiento (chain-of-thought) en pocos ejemplos.
English
In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Summary

AI-Generated Summary

PDF12812December 15, 2024