MM1.5: マルチモーダルLLMファインチューニングからの手法、分析、洞察
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
September 30, 2024
著者: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI
要旨
私たちは、テキスト豊かな画像理解、視覚的参照およびグラウンディング、およびマルチ画像推論の能力を向上させるために設計された新しいファミリーのマルチモーダル大規模言語モデル(MLLMs)であるMM1.5を提案します。MM1アーキテクチャを基に構築されたMM1.5は、モデルトレーニングにデータ中心のアプローチを採用し、継続的な事前トレーニングのための高品質OCRデータや合成キャプション、および監督されたファインチューニングのための最適化された視覚的な指示チューニングデータの混合物の影響を体系的に探求しています。当社のモデルは1Bから30Bのパラメータを持ち、密なモデルと専門家の混合(MoE)の両方を包括しており、慎重なデータキュレーションとトレーニング戦略が、小規模(1Bおよび3B)でも強力なパフォーマンスを生み出すことが示されています。さらに、ビデオ理解向けに設計されたMM1.5-Videoと、モバイルUI理解向けに調整されたMM1.5-UIという2つの専門的なバリアントを紹介しています。広範な経験的研究と削除を通じて、最終的な設計に影響を与えるトレーニングプロセスと意思決定に関する詳細な洞察を提供し、MLLM開発における将来の研究に有益なガイダンスを提供しています。
English
We present MM1.5, a new family of multimodal large language models (MLLMs)
designed to enhance capabilities in text-rich image understanding, visual
referring and grounding, and multi-image reasoning. Building upon the MM1
architecture, MM1.5 adopts a data-centric approach to model training,
systematically exploring the impact of diverse data mixtures across the entire
model training lifecycle. This includes high-quality OCR data and synthetic
captions for continual pre-training, as well as an optimized visual
instruction-tuning data mixture for supervised fine-tuning. Our models range
from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE)
variants, and demonstrate that careful data curation and training strategies
can yield strong performance even at small scales (1B and 3B). Additionally, we
introduce two specialized variants: MM1.5-Video, designed for video
understanding, and MM1.5-UI, tailored for mobile UI understanding. Through
extensive empirical studies and ablations, we provide detailed insights into
the training processes and decisions that inform our final designs, offering
valuable guidance for future research in MLLM development.Summary
AI-Generated Summary