ММ1: Методы, анализ и идеи из предварительного обучения мультимодальной LLM.MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
В данной работе мы обсуждаем создание производительных мультимодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных архитектурных компонентов и выбора данных. После тщательного и всестороннего анализа кодировщика изображений, связующего звена видео-языка и различных выборов данных для предварительного обучения, мы выявили несколько ключевых уроков по проектированию. Например, мы демонстрируем, что для предварительного мультимодального обучения в большом масштабе важно использование тщательно подобранной смеси данных изображение-подпись, чередующихся данные изображение-текст и только текстовые данные для достижения результатов на уровне передовых технологий (SOTA) при малом количестве обучающих примеров по сравнению с другими опубликованными результатами предварительного обучения. Кроме того, мы показываем, что кодировщик изображений вместе с разрешением изображения и количеством токенов изображения имеют существенное влияние, в то время как проектирование связующего звена видео-языка имеет сравнительно незначительное значение. Увеличивая представленный рецепт, мы создаем MM1, семейство мультимодальных моделей до 30 миллиардов параметров, включающее как плотные модели, так и варианты смеси экспертов (MoE), которые являются SOTA по метрикам предварительного обучения и достигают конкурентоспособных результатов после надзорной дообучения на ряде установленных мультимодальных бенчмарков. Благодаря предварительному обучению в большом масштабе, MM1 обладает привлекательными свойствами, такими как улучшенное обучение в контексте и множественное рассуждение по изображениям, обеспечивая возможность маломасштабного подсказывания цепочки мыслей.