MMDU: マルチターン・マルチイメージ対話理解のためのベンチマークとLVLM向け命令チューニングデータセット
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs
June 17, 2024
著者: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
要旨
マルチモーダルな人間の入力に対して自然で意味のある応答を生成することは、大規模視覚言語モデル(LVLM)の基本的な能力である。現在のオープンソースLVLMは、単一ターン・単一画像入力のような簡略化されたシナリオでは有望な性能を示すが、マルチターン・マルチ画像を含む長い文脈履歴に従う指示といった現実世界の会話シナリオでは不十分である。既存のLVLMベンチマークは主に単一選択問題や短い応答に焦点を当てており、現実世界の人間-AIインタラクションアプリケーションにおけるLVLMの能力を適切に評価していない。そこで、我々はMMDUという包括的なベンチマークと、MMDU-45kという大規模な指示チューニングデータセットを導入し、マルチターン・マルチ画像会話におけるLVLMの能力を評価・改善することを目指す。我々はクラスタリングアルゴリズムを用いて、オープンソースのWikipediaから関連する画像とテキスト記述を見つけ出し、GPT-4oモデルの支援を受けた人間のアノテーターによって質問-回答ペアを構築した。MMDUは最大18kの画像+テキストトークン、20枚の画像、27ターンを有し、これまでのベンチマークの少なくとも5倍の長さであり、現在のLVLMに挑戦を投げかけている。MMDUを使用した15の代表的なLVLMの詳細な分析により、オープンソースLVLMは会話指示チューニングデータの不足により、クローズドソースのモデルに遅れをとっていることが明らかになった。我々は、MMDU-45kでオープンソースLVLMをファインチューニングすることで、このギャップを大幅に解消し、より長く正確な会話を生成し、MMDUおよび既存のベンチマーク(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)のスコアを向上させることを実証した。我々の貢献は、現在のLVLMモデルと現実世界のアプリケーション要求とのギャップを埋める道を開くものである。このプロジェクトはhttps://github.com/Liuziyu77/MMDUで公開されている。
English
Generating natural and meaningful responses to communicate with multi-modal
human inputs is a fundamental capability of Large Vision-Language
Models(LVLMs). While current open-source LVLMs demonstrate promising
performance in simplified scenarios such as single-turn single-image input,
they fall short in real-world conversation scenarios such as following
instructions in a long context history with multi-turn and multi-images.
Existing LVLM benchmarks primarily focus on single-choice questions or
short-form responses, which do not adequately assess the capabilities of LVLMs
in real-world human-AI interaction applications. Therefore, we introduce MMDU,
a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning
dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and
multi-image conversations. We employ the clustering algorithm to ffnd the
relevant images and textual descriptions from the open-source Wikipedia and
construct the question-answer pairs by human annotators with the assistance of
the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and
27 turns, which is at least 5x longer than previous benchmarks and poses
challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs
using MMDU reveals that open-source LVLMs lag behind closed-source counterparts
due to limited conversational instruction tuning data. We demonstrate that
ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap,
generating longer and more accurate conversations, and improving scores on MMDU
and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our
contributions pave the way for bridging the gap between current LVLM models and
real-world application demands. This project is available at
https://github.com/Liuziyu77/MMDU.Summary
AI-Generated Summary