ChatPaper.aiChatPaper

ММ1: Методы, анализ и идеи из предварительного обучения мультимодальной LLM.

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

March 14, 2024
Авторы: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI

Аннотация

В данной работе мы обсуждаем создание производительных мультимодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных архитектурных компонентов и выбора данных. После тщательного и всестороннего анализа кодировщика изображений, связующего звена видео-языка и различных выборов данных для предварительного обучения, мы выявили несколько ключевых уроков по проектированию. Например, мы демонстрируем, что для предварительного мультимодального обучения в большом масштабе важно использование тщательно подобранной смеси данных изображение-подпись, чередующихся данные изображение-текст и только текстовые данные для достижения результатов на уровне передовых технологий (SOTA) при малом количестве обучающих примеров по сравнению с другими опубликованными результатами предварительного обучения. Кроме того, мы показываем, что кодировщик изображений вместе с разрешением изображения и количеством токенов изображения имеют существенное влияние, в то время как проектирование связующего звена видео-языка имеет сравнительно незначительное значение. Увеличивая представленный рецепт, мы создаем MM1, семейство мультимодальных моделей до 30 миллиардов параметров, включающее как плотные модели, так и варианты смеси экспертов (MoE), которые являются SOTA по метрикам предварительного обучения и достигают конкурентоспособных результатов после надзорной дообучения на ряде установленных мультимодальных бенчмарков. Благодаря предварительному обучению в большом масштабе, MM1 обладает привлекательными свойствами, такими как улучшенное обучение в контексте и множественное рассуждение по изображениям, обеспечивая возможность маломасштабного подсказывания цепочки мыслей.
English
In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Summary

AI-Generated Summary

PDF12812December 15, 2024