MMDU: マルチターン・マルチイメージ対話理解のためのベンチマークとLVLM向け命令チューニングデータセットMMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
マルチモーダルな人間の入力に対して自然で意味のある応答を生成することは、大規模視覚言語モデル(LVLM)の基本的な能力である。現在のオープンソースLVLMは、単一ターン・単一画像入力のような簡略化されたシナリオでは有望な性能を示すが、マルチターン・マルチ画像を含む長い文脈履歴に従う指示といった現実世界の会話シナリオでは不十分である。既存のLVLMベンチマークは主に単一選択問題や短い応答に焦点を当てており、現実世界の人間-AIインタラクションアプリケーションにおけるLVLMの能力を適切に評価していない。そこで、我々はMMDUという包括的なベンチマークと、MMDU-45kという大規模な指示チューニングデータセットを導入し、マルチターン・マルチ画像会話におけるLVLMの能力を評価・改善することを目指す。我々はクラスタリングアルゴリズムを用いて、オープンソースのWikipediaから関連する画像とテキスト記述を見つけ出し、GPT-4oモデルの支援を受けた人間のアノテーターによって質問-回答ペアを構築した。MMDUは最大18kの画像+テキストトークン、20枚の画像、27ターンを有し、これまでのベンチマークの少なくとも5倍の長さであり、現在のLVLMに挑戦を投げかけている。MMDUを使用した15の代表的なLVLMの詳細な分析により、オープンソースLVLMは会話指示チューニングデータの不足により、クローズドソースのモデルに遅れをとっていることが明らかになった。我々は、MMDU-45kでオープンソースLVLMをファインチューニングすることで、このギャップを大幅に解消し、より長く正確な会話を生成し、MMDUおよび既存のベンチマーク(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)のスコアを向上させることを実証した。我々の貢献は、現在のLVLMモデルと現実世界のアプリケーション要求とのギャップを埋める道を開くものである。このプロジェクトはhttps://github.com/Liuziyu77/MMDUで公開されている。