xGen-MM(BLIP-3):オープンな大規模マルチモーダルモデルのファミリーxGen-MM (BLIP-3): A Family of Open Large Multimodal Models
本報告書では、大規模マルチモーダルモデル(LMM)の開発フレームワークであるxGen-MM(別名BLIP-3)を紹介します。このフレームワークは、厳選されたデータセット、トレーニングレシピ、モデルアーキテクチャ、および結果として得られる一連のLMMで構成されています。xGen-MM(xGen-MultiModalの略)は、Salesforceの基盤AIモデルに関するxGenイニシアチブを拡張するものです。私たちのモデルは、単一画像および複数画像のベンチマークを含む様々なタスクにおいて厳密な評価を受けています。事前学習済みのベースモデルは、強力なインコンテキスト学習能力を示し、指示チューニングされたモデルは、同規模のオープンソースLMMの中で競争力のある性能を発揮します。さらに、DPOを用いた安全性チューニングモデルを導入し、幻覚などの有害な行動を軽減し、安全性を向上させることを目指しています。LMM研究のさらなる進展を促進するため、私たちはモデル、厳選された大規模データセット、およびファインチューニングコードベースをオープンソースとして公開します。関連リソースは、上記のプロジェクトページで利用可能になります。