MM1.5: マルチモーダルLLMファインチューニングからの手法、分析、洞察MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
私たちは、テキスト豊かな画像理解、視覚的参照およびグラウンディング、およびマルチ画像推論の能力を向上させるために設計された新しいファミリーのマルチモーダル大規模言語モデル(MLLMs)であるMM1.5を提案します。MM1アーキテクチャを基に構築されたMM1.5は、モデルトレーニングにデータ中心のアプローチを採用し、継続的な事前トレーニングのための高品質OCRデータや合成キャプション、および監督されたファインチューニングのための最適化された視覚的な指示チューニングデータの混合物の影響を体系的に探求しています。当社のモデルは1Bから30Bのパラメータを持ち、密なモデルと専門家の混合(MoE)の両方を包括しており、慎重なデータキュレーションとトレーニング戦略が、小規模(1Bおよび3B)でも強力なパフォーマンスを生み出すことが示されています。さらに、ビデオ理解向けに設計されたMM1.5-Videoと、モバイルUI理解向けに調整されたMM1.5-UIという2つの専門的なバリアントを紹介しています。広範な経験的研究と削除を通じて、最終的な設計に影響を与えるトレーニングプロセスと意思決定に関する詳細な洞察を提供し、MLLM開発における将来の研究に有益なガイダンスを提供しています。