ММ1: Методы, анализ и идеи из предварительного обучения мультимодальной LLM.
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Авторы: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Аннотация
В данной работе мы обсуждаем создание производительных мультимодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных архитектурных компонентов и выбора данных. После тщательного и всестороннего анализа кодировщика изображений, связующего звена видео-языка и различных выборов данных для предварительного обучения, мы выявили несколько ключевых уроков по проектированию. Например, мы демонстрируем, что для предварительного мультимодального обучения в большом масштабе важно использование тщательно подобранной смеси данных изображение-подпись, чередующихся данные изображение-текст и только текстовые данные для достижения результатов на уровне передовых технологий (SOTA) при малом количестве обучающих примеров по сравнению с другими опубликованными результатами предварительного обучения. Кроме того, мы показываем, что кодировщик изображений вместе с разрешением изображения и количеством токенов изображения имеют существенное влияние, в то время как проектирование связующего звена видео-языка имеет сравнительно незначительное значение. Увеличивая представленный рецепт, мы создаем MM1, семейство мультимодальных моделей до 30 миллиардов параметров, включающее как плотные модели, так и варианты смеси экспертов (MoE), которые являются SOTA по метрикам предварительного обучения и достигают конкурентоспособных результатов после надзорной дообучения на ряде установленных мультимодальных бенчмарков. Благодаря предварительному обучению в большом масштабе, MM1 обладает привлекательными свойствами, такими как улучшенное обучение в контексте и множественное рассуждение по изображениям, обеспечивая возможность маломасштабного подсказывания цепочки мыслей.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.Summary
AI-Generated Summary