マルチモーダルな大規模言語モデルの推論能力を向上させるための混合選好最適化Enhancing the Reasoning Ability of Multimodal Large Language Models via
Mixed Preference Optimization
既存のオープンソースのマルチモーダル大規模言語モデル(MLLMs)は、一般的に、事前トレーニングと教師ありファインチューニングを含むトレーニングプロセスに従います。しかしながら、これらのモデルは分布シフトに苦しんでおり、特にChain-of-Thought(CoT)のパフォーマンスにおいて、そのマルチモーダル推論能力が制限されています。これを解決するために、私たちはマルチモーダル推論能力を向上させるための好み最適化(PO)プロセスを導入します。具体的には、(1)データ側では、高品質で大規模なマルチモーダル推論好みデータセットであるMMPRを作成するための自動化された好みデータ構築パイプラインを設計し、(2)モデル側では、POをMLLMsと統合することを探求し、Mixed Preference Optimization(MPO)と呼ばれるシンプルかつ効果的な手法を開発し、マルチモーダルCoTパフォーマンスを向上させます。私たちのアプローチは、特にマルチモーダル推論タスクにおいて、複数のベンチマークで改善されたパフォーマンスを示しています。特に、当社のモデルであるInternVL2-8B-MPOは、MathVistaにおいて67.0の精度を達成し、InternVL2-8Bを8.7ポイント上回り、10倍大きなInternVL2-76Bと同等のパフォーマンスを達成しています。この研究がMLLMsにおけるさらなる進歩を促すことを願っています。コード、データ、モデルは公開されます。