MM1: マルチモーダルLLM事前学習における手法、分析、および洞察MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
本研究では、高性能なマルチモーダル大規模言語モデル(MLLM)の構築について議論する。特に、様々なアーキテクチャコンポーネントとデータ選択の重要性を検証する。画像エンコーダ、視覚言語コネクタ、および様々な事前学習データ選択について、慎重かつ包括的なアブレーション研究を通じて、いくつかの重要な設計上の教訓を明らかにした。例えば、大規模なマルチモーダル事前学習において、画像キャプション、画像とテキストの交互配置データ、およびテキストのみのデータを慎重に組み合わせることが、他の公開されている事前学習結果と比較して、複数のベンチマークで最先端(SOTA)のFew-shot結果を達成するために重要であることを示す。さらに、画像エンコーダと画像解像度、および画像トークン数が大きな影響を持つ一方で、視覚言語コネクタの設計は比較的無視できる重要性しか持たないことを示す。提示されたレシピをスケールアップすることで、最大30BパラメータのマルチモーダルモデルファミリーであるMM1を構築した。これは、密なモデルと専門家混合(MoE)バリアントからなり、事前学習のメトリクスにおいてSOTAを達成し、確立されたマルチモーダルベンチマークでの教師ありファインチューニング後も競争力のある性能を発揮する。大規模な事前学習のおかげで、MM1は、強化されたインコンテキスト学習や複数画像推論などの魅力的な特性を享受し、Few-shotの連鎖的思考プロンプティングを可能にする。