多模态LLM预训练的方法、分析和见解MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
在这项工作中,我们讨论了构建高性能多模态大型语言模型(MLLMs)。具体来说,我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器以及各种预训练数据进行仔细全面的消融实验,我们确定了几个关键的设计教训。例如,我们证明了在大规模多模态预训练中,使用精心混合的图像标题、交错的图像文本以及仅文本数据对于在多个基准测试中实现最先进的少样本结果至关重要,相较于其他已发表的预训练结果。此外,我们展示了图像编码器与图像分辨率以及图像标记数量的重要影响,而视觉语言连接器的设计相对重要性较低。通过扩大所提出的方法,我们构建了MM1,一个多模态模型系列,拥有高达30B参数,包括密集模型和专家混合变体,这些模型在预训练指标上处于最先进水平,并在一系列已建立的多模态基准测试上经过监督微调后取得了竞争性能。由于大规模预训练,MM1具有诸如增强的上下文学习和多图像推理等吸引人的特性,实现了少样本思维链式提示。